GPT-4 kalahkan dokter mata dalam ujian simulasi
Para peneliti dari Universitas Cambridge menguji GPT-4, bersama dengan LLM lainnya, terhadap dokter mata manusia dalam ujian simulasi.
Sebuah studi baru menunjukkan bahwa model bahasa besar (LLM) seperti GPT-4 mungkin memiliki masa depan di bidang oftalmologi, namun keterbatasan dan risiko tetap ada. Para peneliti dari Universitas Cambridge menguji GPT-4, bersama dengan LLM lainnya, terhadap dokter mata manusia dalam ujian simulasi.
Hasilnya sangat menarik. GPT-4 menjawab 60 dari 87 pertanyaan dengan benar, melebihi kinerja dokter peserta pelatihan (rata-rata: 59,7) dan dokter junior (rata-rata: 37). Namun, skor tersebut masih jauh dari skor rata-rata yang dicapai oleh dokter spesialis mata (66,4). LLM lain, seperti PaLM 2 dan GPT-3.5, memiliki kinerja yang kurang mengesankan.
Meskipun temuan itu mengisyaratkan manfaat potensial, para peneliti menyoroti risiko yang signifikan. Dilansir dari Gizmochina (19/4), terbatasnya kumpulan pertanyaan dalam penelitian ini menimbulkan kekhawatiran mengenai kemampuan generalisasi.
Lebih penting lagi, LLM rentan terhadap “halusinasi”, memalsukan informasi yang dapat menyebabkan kesalahan diagnosis terhadap kondisi serius seperti katarak atau kanker. Selain itu, kurangnya nuansa yang melekat pada LLM dapat memperburuk ketidakakuratan.
Studi tersebut dengan jelas menekankan perlunya penelitian dan pengembangan lebih lanjut sebelum LLM dapat dianggap sebagai alat yang dapat diandalkan untuk diagnosis medis. Karena ada banyak risiko yang terkait dengan diagnosis medis, kita mungkin harus menunggu lama sebelum LLM dimasukkan ke dalam situasi medis mainstream.
Komentar
Posting Komentar