Η Microsoft έχει αναπτύξει έναν δημιουργό βίντεο που δημιουργεί ένα βίντεο από μια φωτογραφία και μια ηχογράφηση ομιλίας. Δεν πρόκειται να δημοσιευθεί.
Μια ερευνητική ομάδα της Microsoft ανέπτυξε ένα εργαλείο τεχνητής νοημοσύνης που μπορεί να δημιουργήσει εκπληκτικά αληθινά βίντεο κλιπ από μια φωτογραφία και μια ηχογράφηση φωνής, στα οποία η φωτογραφία φαίνεται να μιλάει. Ονομάζουν το πλαίσιο VASA, η πρώτη έκδοση τώρα VASA-1, το οποίο αναφέρεται στις “οπτικές συναισθηματικές δεξιότητες” των παραγόμενων avatars. Το εργαλείο δεν είναι μόνο σε θέση να δημιουργήσει τον “πολύτιμο συγχρονισμό μεταξύ χειλιών και ήχου”, αλλά μπορεί επίσης να προσομοιώσει ένα ευρύ φάσμα εκφραστικών εκφράσεων του προσώπου και φυσικών κινήσεων του κεφαλιού. Το VASA μπορεί ήδη να χειριστεί αρχεία ήχου οποιουδήποτε μήκους και να δημιουργήσει απρόσκοπτα ομιλούντα βίντεο με πρόσωπα σε έναν υπολογιστή με Nvidia RTX 4090.
Σε μια σελίδα, οι υπάλληλοι της Microsoft Asia έχουν συγκεντρώσει μια ολόκληρη σειρά παραδειγμάτων για να επιδείξουν τις δυνατότητες του εργαλείου. Μπορείτε να δείτε πολλά τετράγωνα βίντεο με διαφορετικά πρόσωπα, που απαγγέλλουν εκφραστικά διάφορα κείμενα. Η ομάδα διαβεβαιώνει ότι όλα τα πορτρέτα είναι εικονικά, ανύπαρκτες αναπαραστάσεις που δημιουργούνται από τεχνητή νοημοσύνη – η μόνη εξαίρεση είναι ένα animation της Μόνα Λίζα του Λεονάρντο ντα Βίντσι. Για ορισμένα βίντεο, υπάρχουν αντιπαραθέσεις του τρόπου με τον οποίο το δημιουργημένο πρόσωπο απαγγέλλει το κείμενο με διαφορετικά συναισθήματα. Ένα άλλο παράδειγμα δείχνει τρία γυναικεία πρόσωπα να μιλούν ένα κείμενο σε πλήρη συγχρονισμό.
Δεν προβλέπεται δημοσίευση του εργαλείου
Στόχος του ερευνητικού έργου είναι η ανάπτυξη μιας τεχνικής για την εμψύχωση φωτορεαλιστικών avatars σε πραγματικό χρόνο, γράφει η ομάδα. Ωστόσο, παραδέχεται ότι η τεχνολογία μπορεί να χρησιμοποιηθεί καταχρηστικά για να υποδυθεί πραγματικούς ανθρώπους. Ωστόσο, η ομάδα είναι πεπεισμένη ότι τα πιθανά οφέλη δικαιολογούν την έρευνα. Για τους λόγους αυτούς, προς το παρόν δεν υπάρχουν σχέδια για τη δημοσίευση ενός online demo, την παροχή πρόσβασης στην ανάπτυξη ή ακόμη και την κυκλοφορία ενός προϊόντος που θα βασίζεται σε αυτό. Αυτό θα αντιμετωπιστεί μόνο όταν θα μπορούν να είναι σίγουροι ότι η τεχνολογία θα χρησιμοποιηθεί μόνο με υπεύθυνο τρόπο. Προς το παρόν, ήθελαν απλώς να παρουσιάσουν την έρευνα.