Ο πάροχος ChatGPT OpenAI παρουσίασε ένα μοντέλο τεχνητής νοημοσύνης που μπορεί να κλωνοποιήσει τέλεια τις ανθρώπινες φωνές χρησιμοποιώντας ένα ηχητικό πρότυπο 15 δευτερολέπτων. Η πιθανότητα κακής χρήσης είναι μεγάλη – γι’ αυτό και η Voice Engine δεν θα κυκλοφορήσει προς το παρόν.
Η OpenAI εργάζεται εδώ και αρκετό καιρό πάνω στο μοντέλο φωνητικής τεχνητής νοημοσύνης Voice Engine. Μεταξύ άλλων, αποτελεί τη βάση για εφαρμογές όπως το ChatGPT Voice. Το εργαλείο AI avatar Heygen βασίζεται επίσης στο Voice Engine. Το OpenAI παρουσίασε τώρα για πρώτη φορά επίσημα το Voice Engine.
Μια ηχογράφηση 15 δευτερολέπτων είναι το μόνο που χρειάζεται
Τι το κάνει ξεχωριστό: Η τεχνητή νοημοσύνη φωνής είναι σε θέση να κλωνοποιήσει ανθρώπινες φωνές από ένα αρχείο ήχου που διαρκεί μόλις 15 δευτερόλεπτα, όπως αναφέρει ο Guardian. Οι ηχογραφήσεις φωνής που δημιουργεί η τεχνητή νοημοσύνη θα είναι στη συνέχεια δυσδιάκριτες από τους αρχικούς ομιλητές.
Οι παρατηρητές φοβούνται ότι το εργαλείο θα ανοίξει την πόρτα στην κατάχρηση, για παράδειγμα όσον αφορά την παραπληροφόρηση. Στη σούπερ εκλογική χρονιά του 2024, όταν αναμένονται σημαντικές εκλογές στις ΗΠΑ και την Ευρώπη, μεταξύ άλλων, κάτι τέτοιο θα ήταν πολύ επικίνδυνο.
Το OpenAI επιτρέπει μια ματιά πίσω από το καπό
Το OpenAI έχει πλέον αναγνωρίσει τον κίνδυνο. Η πιθανότητα κατάχρησης είναι πιθανώς ο κύριος λόγος για τον οποίο η ενότητα AI δεν έχει ακόμη δημοσιοποιηθεί. Το OpenAI επιτρέπει μόλις τώρα μια ματιά κάτω από το καπό.
Σε μια ανάρτηση στο blog, η εταιρεία ξεκαθάρισε ότι αποφάσισε να δείξει την τεχνολογία αλλά να μην την δημοσιεύσει ακόμη. Αυτό γίνεται για να δοθεί η ευκαιρία στην κοινωνία να προστατευτεί από τις προκλήσεις που θέτουν τα μοντέλα γεννητικής τεχνητής νοημοσύνης.
Για παράδειγμα, το OpenAI συνιστά την κατάργηση του φωνητικού ελέγχου ταυτότητας ως μέτρο ασφαλείας για την πρόσβαση σε τραπεζικούς λογαριασμούς ή άλλες ευαίσθητες πληροφορίες. Επιπλέον, θα πρέπει να αναπτυχθούν πολιτικές που να διασφαλίζουν την προστασία των φωνών των ατόμων στον τομέα της τεχνητής νοημοσύνης.
Υδατογράφημα για ηχογραφήσεις φωνής
Οι ηχογραφήσεις φωνής που δημιουργούνται από το OpenAI AI επισημαίνονται με ένα είδος υδατογραφήματος, ώστε να μπορεί να εντοπιστεί η προέλευση των αρχείων ήχου. Επιπλέον, οι χρήστες – επί του παρόντος λίγοι επιλεγμένοι οργανισμοί – πρέπει να δημοσιοποιούν ότι έχουν χρησιμοποιήσει την ΤΝ.
Ωστόσο, είναι αμφίβολο κατά πόσον αυτό θα βοηθήσει στην αποτροπή πιθανής κατάχρησης. Εξάλλου, διακυβεύονται πολλά όταν πρόκειται για σημαντικές εκλογές και επικερδείς τραπεζικούς λογαριασμούς.
Ενώ η γλωσσική τεχνητή νοημοσύνη OpenAI χαρακτηρίζεται από τις επιδόσεις της, ο ανταγωνισμός έχει προ πολλού λανσάρει στην αγορά αντίστοιχες λύσεις, όπως η Elevenlabs. Ωστόσο, το δικό τους εργαλείο τεχνητής νοημοσύνης απαιτεί αρκετά λεπτά ηχητικού υλικού για την κλωνοποίηση των φωνών.
Προστασία στο εργαλείο AI φωνής
Προκειμένου να ελαχιστοποιηθούν οι πιθανοί κίνδυνοι, η Elevenlabs έχει ενσωματώσει μια λειτουργία προστασίας στο No-go-Voices. Αυτό έχει ως στόχο να αποτρέψει τη μίμηση των φωνών πολιτικών υποψηφίων που συμμετέχουν ενεργά σε σημαντικές εκλογές.