Zona Gadget
– Semakin maju kecerdasan buatan (
Artificial Intelligence/AI)
ternyata semakin meninggi pula tingkat halusinasinya.
Delusi dalam kerangka AI, merujuk pada kondisi di mana sistem kecerdasan buatan menyajikan data yang keliru, yaitu materi yang tak sinkron dengan aslinya atau referensinya.
Menurut penelitian terkini yang dilakukan oleh OpenAI, diketahui bahwa fenomena halusinasi muncul di dalam model-model kecerdasan buatan paling mutakhir mereka. Pada tahap pengujian tersebut, OpenAI mengambil model AI teranyar yaitu seri o3 serta versi mini bernama o4-mini.
Ke-dua model kecerdasan buatan tersebut diuji pada dua situasi yang berlainan, yaitu PersonQA dan simpleQA.
Pengujian PersonQA dijalankan dengan menyajikan pertanyaan tentang figur-figur populer. Pada tes tersebut, model kecerdasan buatan o3 mencatatkan respon “halu” sebesar 33%. Di sisi lain, model o4-mini mengalami derajat halusinasi yang lebih tinggi, yaitu 41%.
Pada tes SimpleQA, kedua model tersebut dievaluasi menggunakan pertanyaan-pertanyaan faktual sederhana. Dari hasil uji coba itu, diketahui bahwa model AI o3 menyajikan data tidak akurat dengan taraf halusinasi mencapai 51 persen.
Di sisi lain, model o4-mini malah menghasilkan angka yang lebih tinggi. Tingkat halusinasinya dikatakan mencapai 79 persen.
OpenAI mengatakan bahwa hasil tersebut normal karena model o4-mini memang diciptakan untuk memberikan respons dengan kecepatan lebih cepat daripada model o3.
Perusahaan ini juga menguji model AI terbaru mereka yang lain, yaitu GPT-4.5. Dalam pengujian SimpleQA, model AI ini mencatat tingkat halusinasi sebesar 37,1 persen. Lebih sedikit dibanding o3 dan o4-mini.
Tingkat halusinasi model AI juga diuji melalui serangkaian tes oleh platform agen dan asisten AI Vectara.
Dalam tes kali ini, sistem kecerdasan buatan diinstruksikan untuk membuat ringkasan dari sebuah artikel berita sebelumnya. Selanjutnya, perbandingannya dilakukan antara ringkasan tersebut dengan konten asli artikel untuk memastikan bahwa informasinya masih relevan dan akurat.
Hasilnya menunjukkan bahwa beberapa model AI
reasoning
(berbasis penalaran), justru menghasilkan kinerja yang lebih buruk dibandingkan dengan model tradisional.
Dalam versi O3, indeks halusinasinya mencatatkan angka sebesar 6,8%. Di sisi lain, model R1 dari perusahaan DeepSeek menunjukkan hasil yang kurang baik.
Pada tes kali ini, model R1 mengungkapkan angka delusi mencapai 14,3%. Nilainya signifikan lebih tinggi dibandingkan dengan versi DeepSeek-V2.5 yang memiliki rasio cuma 2,4%.
Situasinya mirip pun berlaku untuk model pemikiran AI yang dikenal sebagai Granite 3.2 hasil karya IBM. Edisi dengan ukuran lebih besar dari model tersebut, yakni 8 miliar parameter, dicatat mempunyai angka halusinasi mendekati 8,7%. Di sisi lain, edisi mini mereka, atau 2 miliar parameter, berhasil meraih tingkatan hingga 16,5%.
Temuan dari tes ini mengindikasikan bahwa model kecerdasan buatan yang diciptakan untuk melakukan penalaran, sebenarnya_aliasصند
reasoning
, justru cenderung menghasilkan jawaban alias informasi dengan tingkat halusinasi yang cukup tinggi.
Kenapa AI bisa kasih jawaban “halu”?
Menurut firma penelitian tentang AI, Transluce, salah satu penyebab mengapa model AI bisa memberikan jawaban “halu” adalah karena model seperti o3 dari OpenAI misalnya, dirancang untuk memaksimalkan kemungkinan untuk memberikan jawaban.
Dalam hal ini, ketika
bot
tidak memiliki keyakinan atas informasi yang ia punya, mereka akan tetap memberikan respons, alih-alih mengakui bahwa modelnya tidak mengetahui jawaban dari pertanyaan tersebut.
Di samping itu, model kecerdasan buatan (AI) diasah menggunakan sekumpulan data spesifik yang kemudian akan dipakai untuk menyediakan respons terbaik atau sesuai dengan permintaan dari para penggunanya.
Sehubungan dengan hal ini, bila bot mendapatkan pertanyaan di mana jawabannya kemungkinan besar tak tersedia dalam datanya sebelumnya, kecerdasan buatan masih akan mencoba untuk menjawab walaupun fakta tersebut belum tentu akurat.
Informasi tersebut disajikan dengan nada yang kelihatan meyakinkan serta seperti memang akurat, namun pada kenyataannya sama sekali tak memiliki dasar. Ini lah yang menyebabkan model AI dapat memberikan respons semacam “halu” atau tanpa landasan nyata.
Tanggapan perusahaan AI soal “halusinasi”
Perusahaan OpenAI mengakui bahwa model AI mereka, seperti o3 memang memiliki tingkat halusinasi yang cukup tinggi.
Dalam makalah penelitian yang merangkum tes internal pada model AI-nya, perusahaan menyatakan bahwa model o3 memang cenderung membuat “klaim” definitif tersendiri.
Artinya, model AI ini akan memberikan jawaban yang terkesan meyakinkan alias berhalusinasi, dibanding mengakui bahwa bot tidak mengetahui informasi yang sebenarnya.
CEO OpenAI, Sam Altman, justru menanggapi fenomena ini dengan menyebut bahwa halusinasi yang terjadi pada model AI nya merupakan bagian dari fitur
chatbot
, alih-alih
bug
yang harus diperbaiki.
Tanggapan ini sangat berbeda dengan yang dilakukan oleh perusahaan AI lain seperti Google, Microsoft, dan Anthropic. Ketiganya disebut sedang mengerjakan perbaikan untuk mengatasi masalah “halusinasi AI” ini.
Bahkan, Google dan Microsoft dilaporkan telah merilis produk bernama Microsoft Correction dan Google Vertex.
Keduanya konon dirancang untuk memberi tanda jika ada informasi yang mungkin keliru yang diberikan oleh bot AI mereka.
Kendati demikian, upaya yang dilakukan oleh dua raksasa teknologi ini masih diragukan oleh beberapa ahli.
Menurut laporan
Techcrunch
, para peneliti ragu-ragu bahwa solusi itu dapat menyelesaikan secara keseluruhan permasalahan delusi dalam kecerdasan buatan.
Usulan peneliti untuk mengatasi “halusinasi AI”
Berdasarkan laporan
Wall Street Journal,
beberapa peneliti telah mengusulkan agar seluruh model AI dilatih untuk mengatakan “saya tidak tahu”,
Pelatihan ini dikhususkan untuk membekali kemampuan AI saat diberikan pertanyaan yang informasi jawabannya tidak diketahui oleh data memori mereka.
Sementara itu, para peneliti lain merekomendasikan penggunaan metode yang dikenal sebagai ”
retrieval augmented generation
“.
Teknik ini melibatkan penggunaan bot kecerdasan buatan untuk merujuk pada dokumen-dokumen lain yang tetap berkaitan dengan pertanyaan tersebut.
Maka, daripada memberikan respons berdasarkan informasi yang salah, penyerahan dokumen ini bertujuan agar dapat digunakan sebagai sumber pendukung bagi jawaban atas pertanyaan pengguna seperti dikumpulkan.
KompasTekno
dari
Forbes
, Jumat (9/5/2025).

