OpenAI transkripsi video YouTube untuk melatih GPT-4
OpenAI transkripsi lebih dari sejuta jam video YouTube untuk melatih GPT-4
OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper.
Sebuah laporan dari The New York Times mengungkapkan berbagai upaya perusahaan besar di bidang kecerdasan buatan (AI) untuk memperluas akses data mereka. Salah satu sorotan utama adalah OpenAI yang disebut telah mentranskripsi lebih dari satu juta jam video YouTube untuk melatih model bahasa besar mereka, GPT-4.
Menurut laporan tersebut, OpenAI menghadapi kesulitan dalam mendapatkan data latihan berkualitas tinggi, sehingga mereka mengembangkan model transkripsi audio bernama Whisper untuk menyelesaikan masalah tersebut. Langkah ini kemudian diambil untuk mentranskripsi video YouTube sebagai sumber data. Meskipun diakui bahwa tindakan ini berpotensi melanggar hukum hak cipta, namun OpenAI meyakini bahwa hal tersebut merupakan penggunaan yang wajar.
Dikutip dari The Verge (8/4), presiden OpenAI, Greg Brockman, dilaporkan secara pribadi terlibat dalam pengumpulan video yang digunakan untuk melatih model mereka. Menanggapi hal ini, juru bicara OpenAI, Lindsay Held, menyatakan bahwa perusahaan tersebut menggunakan berbagai sumber data, termasuk data publik dan kemitraan untuk data non-publik, serta sedang mempertimbangkan untuk menghasilkan data sintetis sendiri.
Google, yang juga berada di bawah sorotan, mengklaim bahwa mereka telah melihat laporan tidak resmi tentang aktivitas OpenAI, sementara YouTube melarang scraping atau pengunduhan konten tanpa izin. Namun demikian, Google telah menggunakan transkripsi dari video YouTube untuk melatih model mereka sesuai dengan perjanjian dengan para pencipta konten di platform tersebut.
Selain itu, laporan tersebut juga menyoroti kesulitan yang dihadapi oleh Meta dalam mencari data latihan yang berkualitas. Meta disebut-sebut telah menjajaki penggunaan karya yang dilindungi hak cipta tanpa izin, seiring dengan berbagai alternatif lain seperti pembayaran lisensi buku atau bahkan akuisisi penerbit besar.
Tantangan utama yang dihadapi oleh perusahaan-perusahaan besar dalam industri kecerdasan buatan adalah ketersediaan data latihan yang semakin langka. Dalam upaya untuk mengatasi hal ini, solusi seperti penggunaan data sintetis atau pendekatan pembelajaran kurikulum sedang dipertimbangkan. Namun demikian, langkah-langkah ini belum terbukti secara efektif.
Perdebatan mengenai penggunaan data dan hak cipta di dunia kecerdasan buatan masih akan terus berlanjut, sementara perusahaan-perusahaan berusaha untuk mencari solusi yang tepat dalam menghadapi tantangan ini.
Komentar
Posting Komentar