Apple NVIDIA gunakan subtitle YouTube secara ilegal latih AI
Apple, NVIDIA gunakan subtitle dari YouTube secara ilegal untuk latih AI
EleutherAI, alat yang digunakan oleh Apple, NVIDIA, Anthropic, dan Salesforce diketahui menggunakan subtitle YouTube secara ilegal untuk latih AI.
Untuk membuat AI lebih pintar, para pengembang mesin AI menggunakan sangat banyak data sheet dari berbagai pihak. Oleh karena itu, kini banyak pekerja lepas yang menawarkan jasa mereka untuk menginput data, baik berbasis teks, audio, dan video dengan harga yang cukup fantastis.
Hal ini tentunya menjadi masalah bagi pengembang mesin AI, karena mereka selain harus mengeluarkan banyak dana untuk membangun server dan membayar listrik, mereka juga harus mencari cara untuk mengajari mesin AI tanpa harus mengeluarkan dana yang terlalu besar.
Jadi, apa yang pengembang AI lakukan untuk menekan biaya tersebut? Jawabannya adalah dengan pergi ke YouTube dan mencari data untuk diinput ke mesin AI mereka. Setidaknya, itu apa yang didapatkan oleh Proof News melalui investigasi mandiri yang mereka lakukan baru-baru ini.
Penemuan ini sendiri dipublikasikan oleh Wired, dimana beberapa perusahaan AI, seperti Apple, NVIDIA, Anthropic, dan Salesforce terindikasi telah menggunakan video di platform YouTube untuk melatih model AI mereka.
Laporan tersebut menyatakan bahwa perusahaan-perusahaan tersebut menggunakan subtitle dari video yang diunggah di platform tersebut. Yang lebih mencengangkan lagi, lebih dari 175,000 video dari 48.000 channel YouTube menjadi korban.
Seperti diketahui, ini adalah tindak ilegal karena YouTube telah terang-terangan melarang pengambilan konten di platform mereka tanpa izin. Tentunya, perusahan-perusahaan tersebut kemungkinan besar dapat dituntut oleh para korban.
Tak tanggung-tanggung, beberapa channel besar seperti MrBeast, Marques Brownlee (MKBHD), Jacksepticeye, dan PewDiePie menjadi korbannya. Bahkan dilaporkan bahwa lebih dari 300 video diambil dari channel Jacksepticeye dan PewDiePie.
Bukan hanya YouTuber kondang saja yang menjadi korban, namun channel YouTube resmi universitas besar seperti MIT dan Harvard juga menjadi korbannya. Di sisi lain, channel milik perusahaan swasta seperti The Wall Street Journal, NPR, BBC dan acara larut malam seperti The Late Show With Stephen Colbert, Last Week Tonight With John Oliver, dan Jimmy Kimmel Live juga jadi korban.
Sebenarnya, para perusahaan besar yang disebut menggunakan subtitle tak berizin ini tidak langsung melakukannya sendirian. Namun, mereka terhubung ke sebuah layanan teknologi AI, yang bernama EleutherAI.
Dataset Subtitle YouTube ini diambil dan diterjemahkan ke dalam berbagai bahasa. Kemudian, dataset ini dikumpulkan menjadi satu kesatuan yang lebih besar yang mereka sebut sebagai Pile. Selain transkrip dari subtitle YouTube, Pile juga terdiri dari artikel Wikipedia, pidato dari Parlemen Eropa, dan menurut laporan tersebut, bahkan email dari Enron.
Sayangnya, laporan ini tidak memuat komentar apa pun dari EleutherAI. Laporan tersebut menunjukkan bahwa organisasi tersebut menggambarkan misinya sebagai demokratisasi akses ke teknologi AI dengan merilis model-model terlatih.
Hal itu mungkin bertentangan dengan kepentingan pembuat konten dan platform, jika kumpulan data ini dapat dijadikan acuan. Pertarungan hukum dan regulasi atas AI sangatlah rumit.
Pengungkapan semacam ini kemungkinan akan membuat lanskap etika dan hukum pengembangan AI semakin berbahaya. Mudah untuk menyarankan keseimbangan antara inovasi dan tanggung jawab etika untuk AI, tetapi memproduksinya akan jauh lebih sulit.
Komentar
Posting Komentar