Το OpenAI αντιμετωπίζει μια μεγάλη πρόκληση: πώς μπορεί να βρει νέα σύνολα δεδομένων για να εκπαιδεύσει προγράμματα τεχνητής νοημοσύνης;
Ένα από τα μεγάλα ερωτήματα που συνοδεύουν την απίστευτη άνοδο του OpenAI είναι: Από πού προέρχονται τα δεδομένα που χρησιμοποιεί η μητρική εταιρεία των ChatGPT και Sora για να εκπαιδεύσει τα AI chatbots της; Σύμφωνα με έρευνα των New York Times, περισσότερες από ένα εκατομμύριο ώρες βίντεο από το YouTube χρησιμοποιήθηκαν για την εκπαίδευση του GPT-4, του τελευταίου γλωσσικού μοντέλου της OpenAI.
Η OpenAI διατηρεί χαμηλό προφίλ
Σύμφωνα με τη γνωστή αμερικανική εφημερίδα, η OpenAI γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο, αλλά το θεωρούσε εφικτό. Το αφεντικό της OpenAI, Greg Brockman, λέγεται ότι συμμετείχε προσωπικά στη συλλογή των βίντεο που χρησιμοποιήθηκαν, γράφουν οι New York Times.
Η OpenAI υπεκφεύγει όταν ερωτάται. Ένας εκπρόσωπος της εταιρείας δήλωσε στο The Verge ότι επιμελείται “μοναδικά” σύνολα δεδομένων για κάθε ένα από τα μοντέλα της και χρησιμοποιεί “πολυάριθμες πηγές, συμπεριλαμβανομένων των δημόσια διαθέσιμων δεδομένων και των συνεργασιών για μη δημόσια δεδομένα”.
Η Google ξεκαθαρίζει τι δεν επιτρέπεται
Αυτό το παράδειγμα δείχνει πόσο δύσκολο έχει γίνει για τις μεγάλες εταιρείες AI να αποκτήσουν φρέσκα δεδομένα εκπαίδευσης. Σύμφωνα με την έκθεση, μέχρι το 2021, τα σύνολα δεδομένων χρησιμοποιούνταν για σκοπούς εκπαίδευσης χωρίς δισταγμό πριν εξαντληθούν. Σύμφωνα με τους New York Times, το OpenAI άρχισε να συζητά φέτος τη μεταγραφή βίντεο από το YouTube, podcasts και ηχητικά βιβλία.
Εκπρόσωπος της Google δήλωσε ότι η εταιρεία έλαβε “ανεπιβεβαίωτες αναφορές” για τις δραστηριότητες του OpenAI και υπενθύμισε ότι οι όροι χρήσης της Google απαγορεύουν “τη μη εξουσιοδοτημένη ανάγνωση ή λήψη περιεχομένου του YouTube”. Η Google θα λάβει “τεχνικά και νομικά μέτρα” για να αποτρέψει μια τέτοια μη εξουσιοδοτημένη χρήση “εάν έχουμε σαφή νομική ή τεχνική βάση για να το πράξουμε”.
Η Meta εξετάζει ακόμη και την αγορά ενός μεγάλου εκδοτικού οίκου
Ο επικεφαλής του YouTube Neal Mohan τόνισε στο Bloomberg μόλις την περασμένη εβδομάδα ότι η χρήση βίντεο του YouTube για την εκπαίδευση του Sora θα παραβίαζε τους όρους χρήσης της πλατφόρμας.
Η Meta, ένας από τους σημαντικότερους ανταγωνιστές της OpenAI, έρχεται επίσης αντιμέτωπη με τα όριά της σε αυτό το ζήτημα. Σύμφωνα με τα αρχεία που απέκτησαν οι New York Times, η ομάδα τεχνητής νοημοσύνης της Meta φέρεται να έχει συζητήσεις για τη μη εξουσιοδοτημένη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα. Η αγορά αδειών χρήσης βιβλίων ή ακόμη και ενός μεγάλου εκδοτικού οίκου φέρεται επίσης να έχει εξεταστεί προκειμένου να αποκτηθούν νέα δεδομένα εκπαίδευσης.