Perbedaan Antara Teori dan Praktik dalam Kecerdasan Buatan
Samsung mulai merasa khawatir. Mereka menyadari ada perbedaan besar antara nilai AI yang terlihat bagus di ujian dengan kemampuannya dalam dunia nyata. Banyak model AI yang lulus ujian dengan nilai tinggi, tetapi ketika diberi tugas membuat laporan atau menyelesaikan masalah nyata, mereka justru mengalami kesulitan.
Kesenjangan ini mendorong Samsung untuk menciptakan sistem uji baru bernama TRUEBench. Sistem ini diklaim lebih jujur, realistis, dan sesuai dengan kondisi kerja sebenarnya. TRUEBench bukan sekadar tes teori biasa. Ia seperti wawancara kerja yang ketat untuk AI, di mana penilaian tidak hanya berdasarkan pengetahuan umum, tetapi juga kemampuan AI dalam menyelesaikan tugas-tugas nyata perusahaan.
Tantangan Nyata dalam Dunia Kerja
Di dunia nyata, pekerjaan jarang muncul dalam bentuk soal pilihan ganda. Kantor penuh dengan dokumen panjang, email dalam bahasa asing, dan data yang rumit. Benchmark lama tidak pernah menguji kemampuan seperti itu. Di sinilah TRUEBench menunjukkan keunggulannya.
Samsung memberikan tantangan langsung kepada AI. Mereka diminta untuk membuat konten promosi, menganalisis data penjualan, hingga merangkum dokumen tebal. Tidak berhenti di situ, AI juga harus mampu menerjemahkan materi presentasi dalam berbagai bahasa. Semuanya dibagi menjadi 10 kategori dan 46 sub-kategori. Seperti AI benar-benar bekerja di divisi marketing, keuangan, atau operasional sebuah perusahaan global.
Hasilnya pun tidak bisa dianggap remeh. AI yang hanya jago dalam teori tapi lemah dalam praktik akan terlihat jelas. Mereka akan kesulitan menghadapi kompleksitas kantor yang penuh instruksi lintas bahasa dan tenggat waktu yang ketat.
Penilaian yang Dilakukan oleh Manusia dan AI
Samsung menambahkan sentuhan unik dalam proses penilaian. Standar awal dibuat oleh tim ahli manusia. Namun, tidak berhenti di sana. AI justru dilibatkan untuk mengkritisi standar tersebut. AI akan mencari celah, aturan yang kontradiktif, atau hal-hal yang tidak masuk akal bagi pengguna nyata. Setelah itu, standar disempurnakan lagi oleh manusia.
Proses bolak-balik ini membuat hasil penilaian jauh lebih presisi. Dengan cara ini, bias manusia bisa ditekan. Penilaian pun lebih konsisten dan terukur. Sistem ini memastikan tidak ada AI yang bisa lolos hanya karena “kebetulan” sesuai selera juri tertentu.
Transparansi untuk Semua Pihak
Kehebatan TRUEBench tidak disimpan sendiri. Samsung membuka data sampel dan papan peringkat di Hugging Face, sebuah platform open-source global. Siapa saja boleh mengintip. Pengembang, peneliti, bahkan perusahaan pesaing. Di sana, performa hingga lima model AI bisa dibandingkan secara terbuka.
Efisiensi dalam Penilaian
Menariknya, TRUEBench tidak hanya menilai benar-salah. Panjang jawaban juga dicatat. Bagi dunia bisnis, ini penting. AI yang jawabannya benar tapi bertele-tele bisa menghabiskan waktu dan biaya operasional. Dengan TRUEBench, industri punya cara baru untuk menilai AI. Bukan lagi soal siapa paling pintar teori, tapi siapa yang paling siap kerja.
Samsung tampaknya ingin menutup jurang antara potensi besar AI dan kebutuhan nyata di meja kantor. Dengan TRUEBench, mereka menawarkan solusi yang lebih realistis dan efisien.

