Model AI Reasoning Terbaru OpenAI Cenderung Lebih Sering Berhalusinasi hingga Mengarang - Suara Surabaya - Opsitek

Informasi Teknologi Pilihanku

demo-image

Post Top Ad

demo-image

Model AI Reasoning Terbaru OpenAI Cenderung Lebih Sering Berhalusinasi hingga Mengarang - Suara Surabaya

Share This
Responsive Ads Here

 Kecerdasan Buatan,

Model AI Reasoning Terbaru OpenAI Cenderung Lebih Sering Berhalusinasi hingga Mengarang - Suara Surabaya

ChatGPT

Model AI terbaru OpenAI, o3 dan o4-mini, yang dikembangkan untuk kemampuan reasoning atau penalaran, memang memiliki keunggulan dalam banyak aspek.

Namun, kedua model ini ternyata cenderung lebih sering berhalusinasi  alias mengarang cerita hingga menghasilkan informasi palsu dibandingkan beberapa model-model milik OpenAI sebelumnya.

Halusinasi menjadi salah satu tantangan terbesar dan tersulit dalam pengembangan AI hingga saat ini, bahkan pada sistem paling canggih sekalipun. Sebelumnya, setiap model baru cenderung menunjukkan penurunan tingkat halusinasi dibanding pendahulunya. Tapi pola itu tidak terlihat pada model o3 dan o4-mini.

Melansir laporan TechCruch, Sabtu (19/4/2025), berdasarkan hasil pengujian internal OpenAI, kedua model reasoning ini justru lebih sering berhalusinasi dibanding pendahulunya, yaitu o1, o1-mini, dan o3-mini bahkan jika dibandingkan model non-reasoning seperti GPT-4o.

Bahkan yang mengkhawatirkan, OpenAI sendiri mengakui belum memahami sepenuhnya mengapa hal ini terjadi.

Dalam laporan teknis untuk model o3 dan o4-mini, OpenAI menyatakan bahwa “diperlukan penelitian lebih lanjut” untuk memahami alasan meningkatnya halusinasi seiring skala model reasoning yang diperbesar.

Meskipun o3 dan o4-mini menunjukkan kinerja lebih baik dalam tugas-tugas tertentu seperti pengkodean dan matematika, model ini juga “menghasilkan lebih banyak klaim secara keseluruhan,” yang menyebabkan “lebih banyak klaim yang akurat maupun yang tidak akurat/berhalusinasi.”

Misalnya, OpenAI mencatat bahwa model o3 berhalusinasi dalam 33 persen kasus saat menjawab pertanyaan pada PersonQA, tolok ukur internal untuk menguji pengetahuan model tentang individu.

Angka ini dua kali lipat dari model reasoning sebelumnya o1 dan o3-mini yang memiliki tingkat halusinasi masing-masing sebesar 16% dan 14,8 persen . Sementara itu, o4-mini menunjukkan tingkat halusinasi yang lebih tinggi lagi, yakni 48%.

Temuan serupa juga dilaporkan oleh Transluce, sebuah lembaga penelitian AI nirlaba, yang menguji model o3 secara independen. Dalam salah satu kasus, o3 mengklaim bahwa ia menjalankan kode pada MacBook Pro 2021 di luar ChatGPT lalu menyalin hasilnya ke dalam jawabannya — padahal hal ini mustahil dilakukan oleh o3.

“Kami menduga bahwa jenis reinforcement learning yang digunakan pada model o-series justru memperkuat masalah yang biasanya dapat dikurangi lewat proses pelatihan lanjutan standar,” ujar Neil Chowdhury, peneliti Transluce sekaligus mantan karyawan OpenAI, dalam wawancaranya dengan TechCrunch.

Sarah Schwettmann, salah satu pendiri Transluce, menambahkan bahwa tingginya tingkat halusinasi pada o3 dapat membuatnya kurang bermanfaat daripada yang seharusnya.

Sementara itu, Kian Katanforoosh, dosen di Stanford dan CEO startup pelatihan keterampilan Workera, mengatakan bahwa timnya sudah menguji o3 untuk membantu pekerjaan pengkodean.

Ia mengakui model ini unggul dibanding kompetitor, tetapi sering kali mencantumkan tautan situs web yang ternyata rusak atau tidak dapat diakses.

Meski halusinasi kadang memunculkan ide-ide kreatif dan pemikiran yang menarik, fenomena ini menjadi hambatan besar bagi pemanfaatan AI di sektor-sektor yang menuntut akurasi tinggi, seperti hukum atau keuangan.

Salah satu solusi yang menjanjikan adalah memberi model kemampuan untuk mengakses pencarian web. OpenAI mencatat bahwa GPT-4o dengan fitur pencarian web mencapai tingkat akurasi 90 persen pada benchmark SimpleQA.

Fitur pencarian semacam ini juga berpotensi mengurangi halusinasi pada model reasoning, asalkan pengguna bersedia membagikan prompt mereka ke penyedia mesin pencari pihak ketiga. Tapi jika ternyata skala model reasoning yang lebih besar justru memperparah halusinasi, maka pencarian solusi akan semakin mendesak.

“Menangani halusinasi pada semua model kami adalah bidang riset yang terus berjalan, dan kami terus berupaya meningkatkan akurasi serta keandalannya,” ujar Niko Felix juru bicara OpenAI, dalam email kepada TechCrunch.

Dalam setahun terakhir, industri AI secara umum telah bergeser fokus ke model reasoning, menyusul menurunnya efektivitas teknik-teknik peningkatan model tradisional.

Pendekatan reasoning terbukti mampu meningkatkan kinerja AI dalam berbagai tugas tanpa memerlukan komputasi dan data pelatihan dalam jumlah besar. Namun, kini muncul tantangan baru: peningkatan kemampuan penalaran bisa saja diikuti oleh peningkatan halusinasi. (bil/faz)

Comment Using!!

Tidak ada komentar:

Posting Komentar

Post Bottom Ad

Pages