Selasa, Desember 16, 2025
BerandaUncategorizedAI Tidak Bisa Beradaptasi di Afrika, Bingung dengan 3.000 Bahasa

AI Tidak Bisa Beradaptasi di Afrika, Bingung dengan 3.000 Bahasa

Kesenjangan Data dan Tantangan Pengembangan AI di Afrika

Pengembangan kecerdasan buatan (AI) di Afrika menghadapi berbagai tantangan, salah satunya adalah variasi bahasa yang sangat besar. Dengan sekitar 1.500 hingga 3.000 bahasa yang digunakan di benua ini, pengembangan model bahasa besar (Large Language Model/LLM) seperti ChatGPT atau Gemini menjadi sangat terbatas. Masalah utamanya adalah ketersediaan data tekstual dalam jumlah besar yang diperlukan untuk melatih model tersebut.

Dibandingkan dengan bahasa Inggris yang memiliki lebih dari 7 juta artikel di Wikipedia, bahasa Tigrinya—yang dituturkan oleh sekitar 9 juta orang di Ethiopia dan Eritrea—hanya memiliki 335 artikel. Bahkan, untuk bahasa Akan yang banyak digunakan di Ghana, tidak ada satu pun artikel Wikipedia. Hal ini menunjukkan kesenjangan data yang sangat besar antara bahasa-bahasa Afrika dan bahasa dominan lainnya.

Vukosi Marivate, profesor ilmu komputer di Universitas Pretoria, menjelaskan bahwa hanya 42 dari 1.500-3.000 bahasa Afrika yang memiliki model bahasa yang tersedia. Dari 23 aksara dan alfabet Afrika, hanya tiga yang tersedia, yaitu Latin, Arab, dan Ge’Ez. Ini membuat pengembangan AI di Afrika semakin sulit, karena kurangnya representasi bahasa lokal dalam sistem teknologi modern.

Risiko Marjinalisasi Bahasa

Chinasa T Okolo, pendiri Technecultura, menyatakan bahwa masalah ini tidak hanya terkait teknologi, tetapi juga finansial. Meskipun jumlah penutur bahasa Swahili lebih besar daripada penutur bahasa Finlandia, Finlandia dianggap sebagai pasar yang lebih baik bagi perusahaan seperti Apple dan Google. Hal ini menunjukkan bahwa investasi dalam pengembangan AI sering kali lebih fokus pada bahasa yang memiliki potensi ekonomi lebih tinggi.

Okolo memperingatkan bahwa jika kesenjangan data ini tidak segera diatasi, masyarakat yang tidak berbicara bahasa yang didukung oleh model AI akan terus terpinggirkan. “Kita akan terus melihat orang-orang terpinggirkan dari kesempatan,” ujarnya. Dengan demikian, upaya pengembangan AI di Afrika harus mencakup semua bahasa, termasuk yang memiliki jumlah penutur kecil.

Upaya Mengembangkan Bahasa di AI Afrika

Untuk menghindari marjinalisasi, Okolo menekankan pentingnya membayangkan kembali cara pengembangan model AI. Salah satu proyek yang sedang berjalan adalah African Next Voices, yang dipimpin oleh Vukosi Marivate. Proyek ini fokus pada perekaman suara untuk 18 bahasa di Afrika Selatan, Kenya, dan Nigeria.

Selama dua tahun, tim berhasil mengumpulkan total 9.000 jam rekaman dari berbagai usia dan lokasi. Data ini akan digunakan oleh pengembang AI di seluruh benua untuk melatih model mereka. Dalam proses pengumpulan data, peneliti kadang memberikan naskah kepada penutur asli untuk dibaca, atau memberikan petunjuk dan merekam tanggapan lisan yang kemudian ditranskripsikan.

Salah satu tantangan unik adalah bahasa Isindebele, yang sulit ditemukan sumber tertulisnya. Akhirnya, para pengembang menggunakan buku panduan pemerintah untuk penggembala kambing guna membantu penyusunan petunjuk lisan.

Fokus pada Topik Spesifik

Meski African Next Voices belum cukup untuk melatih LLM raksasa seperti ChatGPT, fokus utama mereka adalah pada topik-topik spesifik seperti kesehatan dan pertanian. Nyalleng Moorosi, peneliti di Distributed AI Research Institute (DAIR), menjelaskan bahwa penggunaan data kecil dan terfokus dapat menghasilkan model yang akurat dalam lingkup terbatas.

Namun, kesalahan dalam model yang membahas topik sensitif seperti perbankan atau perawatan kesehatan bisa memiliki konsekuensi serius. Moorosi menekankan pentingnya pemahaman budaya dalam pengembangan AI. Kata-kata dan simbol memiliki arti kontekstual yang berbeda di berbagai budaya, dan tanpa pemahaman ini, sistem AI tidak dapat membuat penilaian yang sesuai.

Tantangan Tata Bahasa dan Infrastruktur

Selain kesenjangan data, kurangnya kodifikasi tata bahasa juga menjadi hambatan. Dalam bahasa Kinyarwanda, misalnya, terdapat tiga cara umum untuk mengeja nama negara tersebut. Tanpa aturan ejaan yang jelas, bahkan pemrosesan teks dasar menjadi sulit.

Selain itu, infrastruktur data juga masih terbatas. Uni Afrika pada 2024 menyatakan bahwa hanya 10 persen dari permintaan pusat data di benua ini yang terpenuhi. Marivate khawatir bahwa jika model tidak dibuat untuk bahasa-bahasa yang lebih kecil, bahasa-bahasa tersebut akan lenyap. Ia menambahkan bahwa model harus diubah untuk bahasa yang bahkan mungkin tidak memiliki sistem penulisan.

Proyek African Next Voices telah menyelesaikan pengumpulan dan transkripsi datanya. Meski saat ini belum mengerjakan bahasa pemrograman baru, Marivate mengungkapkan bahwa tim sudah memikirkan langkah-langkah berikutnya.

zonagadget
zonagadgethttps://www.zonagadget.co.id/
Berikan ilmu yang kamu punya, niscaya kamu akan mendapatkan yang lebih
RELATED ARTICLES

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini

New Post

Most Popular