Revolusi pada Generatif AI: Mengapa Model Kecil Lebih Efisien dan Potensial daripada Model Besar

Adhiguna Mahendra
Sumber :
  • Handoko/Istimewa

Efisiensi Arsitektur: Pengaruh Besar dari Model Kecil

Tidak hanya data yang memainkan peran penting dalam kinerja AI, tetapi juga efisiensi arsitektur model itu sendiri. Phi-1, meski kecil, mampu memberikan performa yang luar biasa dalam tugas pemrograman berkat arsitektur yang efisien, seperti penggunaan FlashAttention dan rotary embeddings. Ini memungkinkan phi-1 untuk memaksimalkan kinerjanya dengan daya komputasi yang jauh lebih rendah. Bahkan, proyek lain yang lebih besar seperti Gorilla dari Berkeley juga menunjukkan keunggulan yang sama. Dengan hanya menggunakan 7 miliar parameter, mereka berhasil melakukan fine-tuning pada model LLaMA untuk interaksi API spesifik, yang lebih efisien dibandingkan GPT-4 dalam beberapa kasus, meskipun menggunakan sumber daya komputasi yang lebih sedikit.

Fine-Tuning: Kunci untuk Spesialisasi

Salah satu aspek yang sangat penting dalam model-model kecil yang sukses adalah fine-tuning, yaitu proses penyempurnaan model yang telah dilatih sebelumnya agar lebih cocok dengan tugas tertentu. Dengan fine-tuning, model yang awalnya dibuat untuk tujuan umum dapat disesuaikan agar lebih efektif dalam menyelesaikan tugas-tugas spesifik. Phi-1, misalnya, mencapai tingkat keberhasilan 50,6% pada HumanEval setelah dilakukan fine-tuning dengan dataset yang berfokus pada latihan pemrograman yang lebih relevan dan bermanfaat.

Fine-tuning memungkinkan model untuk lebih fokus pada domain tertentu dan memberikan hasil yang jauh lebih baik daripada model yang hanya berfokus pada pemrosesan data secara umum. Proyek seperti Gorilla juga menunjukkan bahwa dengan fokus pada tugas tertentu, model yang lebih kecil dapat melampaui model besar dalam hal akurasi dan efisiensi.

Kekuatan Umpan Balik Manusia: Menjamin Kualitas dan Keandalan

Selain fine-tuning, pendekatan penting lainnya adalah penggunaan umpan balik manusia dalam melatih dan memvalidasi model. Data yang diperoleh dari interaksi dunia nyata memungkinkan model untuk memahami nuansa dan konteks yang lebih dalam, serta mengidentifikasi dan memperbaiki bias yang mungkin muncul. Dengan melibatkan manusia dalam proses ini, kita dapat memastikan bahwa model AI tidak hanya akurat, tetapi juga etis dan sesuai dengan nilai-nilai manusia.