ABSA (Aspect-Based Sentiment Analysis) untuk opini sentimen super detail

Riset Aspect-Based Sentiment Analysis (ABSA) hadir sebagai sebuah terobosan ilmiah untuk membedah opini publik secara super detail (fine-grained) langsung pada aspek spesifik dari suatu ulasan. Dengan menargetkan standar terbaik dunia (SOTA), riset ini memadukan kekayaan bahasa daerah di Indonesia dengan kecanggihan model bahasa besar (LLM) terkini.

Pernahkah Anda membaca ulasan internet yang isinya campur aduk?

“Hotelnya bersih banget dan kasurnya empuk, tapi sayang makanan restorannya hambar dan pelayanan resepsionisnya lelet.”

Bagi manusia, kita tahu konsumen ini menyukai fasilitas kamar tetapi kecewa dengan makanan dan pelayanan. Namun, AI (Kecerdasan Buatan) tradisional akan bingung. AI lama hanya bisa membaca satu kalimat utuh lalu menebak satu label: Positif atau Negatif. Karena isinya bertolak belakang, AI lama biasanya menyerah dan memberi label Netral. Akibatnya, pemilik hotel kehilangan informasi berharga tentang bagian mana yang harus diperbaiki.

Untuk menjembatani celah ini, sebuah riset mutakhir dikembangkan oleh Indonesia AI Institute (IAII) dengan fokus pada Aspect-Based Sentiment Analysis (ABSA) untuk menghasilkan wawasan sentimen yang super detail (fine-grained insights). Tidak main-main, riset ini langsung membidik target besar: Menjadi metode terbaik di dunia (State-of-the-Art / SOTA) untuk tugas-tugas ABSA.

1. Fokus Riset: Membedah Teks Lewat Tugas ASTE

Riset ini tidak hanya menebak sentimen, melainkan fokus pada tugas yang jauh lebih kompleks bernama ASTE (Aspect Sentiment Triplet Extraction) atau perluasannya. Di dalam tugas ASTE, AI dilatih untuk mengekstrak empat elemen sekaligus (Quadruplet) dari satu kalimat ulasan:

[Objek yang Dikritik] ──► [Kata Sifat/Opini] ──► [Jenis Kategori] ──► [Nilai Emosi/Polaritas]

Aspect Term: Menemukan objek fisik yang dikomentari (Contoh: “makanan restoran”).
Opinion Term: Menemukan kata sifat ekspresi konsumen (Contoh: “hambar”).
Sentiment/Polarity: Menentukan nilai emosinya (Contoh: Negatif 👎).

Dengan memetakan empat elemen ini secara otomatis, pemilik bisnis bisa mendapatkan dasbor analisis yang sangat tajam tanpa perlu membaca jutaan ulasan manual satu per satu.

2. Cakupan Riset: Merawat Bahasa Daerah lewat Dataset Multibahasa

Salah satu kelemahan terbesar model AI buatan luar negeri adalah ketidakmampuannya memahami bahasa lokal atau daerah di Indonesia. Riset ini mendobrak batasan tersebut dengan membangun Dataset Baru (New Datasets) berskala besar.

Bahan Baku: Riset ini mengambil fondasi dari dataset ulasan sektor Perhotelan.
Lokalisasi & Perbaikan: Dataset bahasa Indonesia yang ada diperbaiki kualitas strukturnya dari kesalahan tik (typo) atau kerancuan makna.
Ekspansi Bahasa Daerah: Dataset berkualitas tinggi ini kemudian diterjemahkan dan disesuaikan secara kultural ke dalam 6 bahasa daerah terbesar di Indonesia plus bahasa Inggris. Bahasa yang dicakup meliputi: Bahasa Indonesia, Inggris, Jawa, Sunda, Minang, Bugis, dan Madura.

Langkah ini memastikan bahwa masyarakat dari berbagai pelosok Indonesia yang mengulas akomodasi lokal menggunakan bahasa ibunya tetap dapat dipahami secara presisi oleh AI.

3. Publikasi Ilmiah 1: Pendekatan Generatif (LLM) vs Agentic AI

Eksperimen pertama riset ini dituangkan ke dalam Paper 1, yang membandingkan dua mazhab teknologi kecerdasan buatan modern dalam menyelesaikan tugas ABSA multibahasa:

A. Metode Supervised Fine-Tuning (SFT)

Peneliti IAII melatih model bahasa berukuran kecil-menengah (Small Language Models) secara spesifik menggunakan dataset 7 bahasa tadi. Model yang digunakan adalah Qwen 2.5 (0.5B) dan Gemma 3 (270m). Meskipun ukurannya ringkas dan hemat biaya komputasi, model ini “dilatih” secara intensif agar menjadi pakar dalam mengenali struktur ASTE.

B. Metode Agentic AI

Di sisi lain, peneliti IAII menggunakan model raksasa (Large Language Models) seperti Gemini dan Qwen (ukuran besar) yang dikonfigurasi sebagai Agent. AI ini diberikan kemampuan untuk berpikir, mengkritik jawabannya sendiri (self-reflection), dan memvalidasi hasil ekstraksinya sebelum memberikan jawaban akhir.

Jadi jika ada pertanyaan “Apakah model kecil yang dilatih khusus (SFT) mampu menandingi atau bahkan melampaui kecerdasan model raksasa (Agentic AI) yang membutuhkan memori besar?” Paper 1 akan menjawab dilema efisiensi komputasi ini untuk kebutuhan industri.

4. Publikasi Ilmiah 2: Melihat Isi Kepala AI (Multilingual Steering & Mechanistic Interpretabilty)

Selama ini, LLM sering dijuluki sebagai “Black Box” (Kotak Hitam) karena manusia tahu input dan outputnya, tetapi tidak tahu bagaimana proses berpikir di dalam jaringan saraf buatannya. Paper 2 dalam riset ini hadir untuk memecahkan misteri tersebut melalui metode bernama Mechanistic Interpretability.

Para peneliti melakukan “bedah otak” digital pada LLM saat model tersebut membaca berbagai bahasa daerah.

Mencari Attention Head yang Aktif: Peneliti IAII melacak bagian sirkuit internal (attention heads) mana yang menyala ketika AI membaca kata berbahasa Jawa, Sunda, atau Minang.
Mekanisme Kemudi (Steering/Shift): Setelah mengetahui head mana yang bertanggung jawab atas bahasa tertentu, peneliti IAII melakukan intervensi atau pergeseran (shifting).

Sederhananya, jika AI sedang membaca bahasa Madura namun mendadak bingung, peneliti bisa “menyetir” atau mengaktifkan sirkuit bahasa yang tepat secara paksa di dalam model agar hasil analisis sentimen aspeknya tetap akurat. Teknologi kemudi (steering) ini memastikan model tidak kehilangan akurasi meskipun mendadak terjadi percampuran bahasa (code-switching) dalam satu kalimat ulasan.

5. Dampak dan Arah Masa Depan

Riset ini tidak hanya meletakkan standar baru (SOTA) di kancah akademik internasional, tetapi juga membawa dampak sosial dan ekonomi yang nyata:

Sektor Pariwisata: Hotel-hotel lokal di daerah bisa memanfaatkan teknologi ini untuk memetakan kepuasan pelanggan secara objektif, bahkan dari ulasan yang ditulis menggunakan bahasa daerah.
Inklusi Digital: Bahasa-bahasa daerah di Indonesia tidak lagi dianaktirikan dalam perkembangan teknologi kecerdasan buatan global.

Melalui kombinasi dataset multibahasa lokal, optimalisasi model generatif (SFT vs Agent), dan pembedahan sirkuit dalam LLM (mechanistic interpretability), riset ini diharapkan sukses mengantarkan Indonesia menjadi salah satu kiblat pengembangan Fine-Grained Sentiment Analysis tingkat dunia.

~Riset ini sedang berjalan.