Η OpenAI παρουσιάζει το Voice Engine, ένα μοντέλο τεχνητής νοημοσύνης για την κλωνοποίηση φωνών, το οποίο χρησιμοποιείται μεταξύ άλλων από το HeyGen, αλλά και για τη φωνητική λειτουργία του ChatGPT.
Μετά το Video AI Sora, η OpenAI παρουσιάζει το “Voice Engine”, ένα μοντέλο AI για την κλωνοποίηση φωνών που ορίζει ο χρήστης, το οποίο χρησιμοποιείται επίσης από την HeyGen για τον ομώνυμο μεταφραστή AI video με συγχρονισμένα χείλη. Το Voice Engine μπορεί να δημιουργήσει φυσικές φωνές που πλησιάζουν πολύ τη φωνή του ομιλητή εισάγοντας κείμενο και με βάση μια ηχογράφηση 15 δευτερολέπτων, όπως δείχνουν τα ηχητικά παραδείγματα στο blog post της εταιρείας.
Μετά τις Suno AI, ElevenLabs και άλλες, η OpenAI φαίνεται τώρα να εστιάζει περισσότερο στην κλωνοποίηση φωνής. Με το Voice Engine, το περιεχόμενο πρόκειται να μεταφράζεται και να παράγεται με τη φωνή του ομιλητή “ώστε οι Youtubers και οι εταιρείες να μπορούν να προσεγγίσουν περισσότερους ανθρώπους με ευχέρεια και με τη δική τους φωνή”. Σύμφωνα με την OpenAI, η τεχνητή νοημοσύνη χρειάζεται μόνο μια ηχογράφηση 15 δευτερολέπτων της φωνής του ανθρώπινου ομιλητή για να αντιγραφεί.
Το Open AI έχει επίγνωση της πιθανότητας κατάχρησης, ειδικά σε μια χρονιά εκλογών. Για τον λόγο αυτό συνεργάζεται με εταίρους από τους τομείς της “κυβέρνησης, των μέσων ενημέρωσης, της ψυχαγωγίας, της εκπαίδευσης και της κοινωνίας των πολιτών”. Είναι σημαντικό να λαμβάνονται υπόψη τα σχόλιά τους κατά τη διάρκεια της ανάπτυξης. Για παράδειγμα, το Voice Engine δοκιμάζεται από επιλεγμένους εταίρους από τα τέλη του περασμένου έτους προκειμένου να αποκτηθεί εμπειρία. Στις αρχές Ιανουαρίου, η εταιρεία επέκτεινε ανάλογα τους όρους χρήσης των εργαλείων τεχνητής νοημοσύνης.
Σύμφωνα με την εταιρεία, επί του παρόντος “τάσσεται υπέρ μιας προεπισκόπησης, αλλά όχι μιας ολοκληρωμένης κυκλοφορίας αυτής της τεχνολογίας”. Σύμφωνα με την OpenAI, με βάση τα αποτελέσματα των δοκιμών μικρής κλίμακας, στο μέλλον θα ληφθεί μια “πιο τεκμηριωμένη απόφαση” σχετικά με το “αν και πώς θα αναπτύξουμε αυτή την τεχνολογία σε μεγάλη κλίμακα”.
Βοήθεια σε περίπτωση απώλειας φωνής
Σύμφωνα με την ανάρτηση στο blog, η εταιρεία ξεκίνησε την ανάπτυξη της τεχνολογίας στα τέλη του 2022. Αυτό είχε ως αποτέλεσμα την ενσωμάτωση μιας φωνητικής λειτουργίας στο ChatGPT, για παράδειγμα. Άλλα έργα στα οποία χρησιμοποιείται η Voice Engine περιλαμβάνουν το “Age of Learning”, ένα βοήθημα ανάγνωσης για παιδιά και μη αναγνώστες, τη μετάφραση περιεχομένου και την υποστήριξη ατόμων που δεν μπορούν να μιλήσουν. Η Dimagi Inc., μια εταιρεία που ειδικεύεται στον τομέα της υγειονομικής περίθαλψης, βασίζεται επίσης στη Voice Engine και το GPT-4, ενώ η Livox συνεργάζεται επίσης με το OpenAI για την εφαρμογή επικοινωνίας της.
Η OpenAI αναφέρει το Ινστιτούτο Νευροεπιστημών Norman Prince στο Lifespan, το οποίο χρησιμεύει ως διδακτήριο, ως παράδειγμα πιλοτικού έργου που χρησιμοποιεί την εφαρμογή επικοινωνίας. Στόχος είναι να βοηθήσει τους ασθενείς που έχουν χάσει τη φωνή τους λόγω ογκολογικών ή εκφυλιστικών ασθενειών να την επανακτήσουν. Για παράδειγμα, αποκαταστάθηκε η φωνή ενός νεαρού ασθενούς που δεν ήταν πλέον σε θέση να μιλάει με ευχέρεια λόγω όγκου στον εγκέφαλο. Ένα βίντεο που καταγράφηκε για το σχολείο χρησιμοποιήθηκε ως είσοδος για το μοντέλο φωνής.
Η OpenAI έχει επίγνωση των κινδύνων
Δεδομένων των κινδύνων που συνδέονται με τη δημιουργία ομιλίας που μοιάζει με τον άνθρωπο, η OpenAI έχει εφαρμόσει μια σειρά από μέτρα ασφαλείας. Αυτά περιλαμβάνουν υδατογράφημα για τον εντοπισμό της προέλευσης οποιουδήποτε ηχητικού δεδομένου που παράγεται από τη μηχανή φωνής και την προληπτική παρακολούθηση της χρήσης του.
Η OpenAI τονίζει ότι κάθε ευρεία εισαγωγή της τεχνολογίας συνθετικής ομιλίας θα πρέπει να συνοδεύεται από εμπειρίες αναγνώρισης φωνής. Σύμφωνα με το OpenAI, οι άνθρωποι θα πρέπει να εκπαιδεύονται ώστε να κατανοούν τις δυνατότητες και τους περιορισμούς των τεχνολογιών τεχνητής νοημοσύνης, συμπεριλαμβανομένης της πιθανότητας παραπλανητικού περιεχομένου τεχνητής νοημοσύνης.