Revolusi pada Generatif AI: Mengapa Model Kecil Lebih Efisien dan Potensial daripada Model Besar

Sabtu, 11 Januari 2025 - 09:36 WIB

Oleh :

Suhandoko

Adhiguna Mahendra

Sumber :

Handoko/Istimewa

Jakarta, WISATA - Di dunia kecerdasan buatan (AI), sering kali kita mendengar bahwa model yang lebih besar, dengan data yang lebih banyak dan daya komputasi yang luar biasa, adalah kunci untuk terobosan besar. Namun, dalam beberapa tahun terakhir, pendapat ini mulai dipertanyakan. Sebuah perubahan paradigma yang menarik sedang berlangsung, yang membuktikan bahwa model yang lebih kecil, dengan data yang lebih berkualitas dan desain yang lebih cerdas, dapat mengalahkan model-model besar dalam banyak kasus. Dr. Adhiguna Mahendra, M.Sc., M.Eng, seorang ahli AI terkemuka di Indonesia, menyebutkan bahwa tren ini semakin berkembang, dengan beberapa proyek nyata yang memberikan bukti kuat akan hal tersebut.

Tantangan dalam Pengembangan AI Berbasis Skala

Salah satu masalah besar dalam pengembangan AI adalah ketergantungan pada model umum yang dibangun menggunakan dataset besar yang tidak terfilter. Ini membuat dataset tersebut penuh dengan data yang tidak relevan, redundan, atau bahkan penuh dengan kebisingan. Model-model besar seperti GPT-3 atau GPT-4 memang luar biasa dalam cakupan umum, tetapi mereka sering kali kesulitan dalam menyelesaikan masalah yang memerlukan keahlian domain tertentu. Bahkan, model besar sering kali lebih mahal dalam hal biaya komputasi dan sumber daya yang dibutuhkan untuk pelatihan.

Salah satu contoh luar biasa dari model kecil yang dapat mengalahkan model besar adalah proyek phi-1. Dengan hanya menggunakan 1,3 miliar parameter, phi-1 berhasil mengalahkan model besar dalam tugas pemrograman dengan waktu pelatihan yang jauh lebih singkat, hanya dalam tiga hari. Ini membuktikan bahwa kecerdasan dalam merancang model jauh lebih penting daripada sekadar mengandalkan ukuran dan skala. Phi-1 dilatih menggunakan dataset kecil yang sangat terkurasi dan berkualitas tinggi, yang terdiri dari kode yang terstruktur dengan baik dan latihan pemrograman sintetik yang dihasilkan oleh model sebelumnya seperti GPT-3.5.

Dalam konteks ini, kualitas data jauh lebih penting daripada volume data yang besar. Pendekatan ini mengubah paradigma yang selama ini diyakini oleh banyak orang bahwa semakin besar model dan datanya, semakin baik hasilnya.

Halaman Selanjutnya

Efisiensi Arsitektur: Pengaruh Besar dari Model Kecil