NVIDIA Menghadirkan Model Terbaru untuk Generasi Data Sintetis dengan NVIDIA Nemotron-4 340B
- Nvidia
Generasi Data Sintetis
SDG mengacu pada proses pembuatan dataset yang dapat digunakan untuk berbagai kustomisasi model, dari Penyetelan Ulang Supervised (SFT), Penyetelan Efisien Parameter (PEFT) termasuk Adaptasi Peringkat Rendah (LoRA), dan pelurusan model (menggunakan metode seperti RLAIF, DPO, dan lainnya). SDG dapat diterapkan pada berbagai aplikasi, mulai dari pengambilan, hingga kurasi dataset evaluasi, hingga sistem rekomendasi. Untuk artikel ini, kita fokus pada pelurusan model sebagai penggunaan utama untuk keluarga model Nemotron-4 340B. Pelatihan pelurusan adalah subdisiplin yang berkembang pesat dalam domain AI Generatif dan dapat diimplementasikan dalam beberapa cara berbeda.
Alur Generasi Data Sintetis
Secara umum, SDG dibagi menjadi dua bagian utama, yang dijelaskan di bawah ini.
1. Generasi Respons Sintetis: Data respons sintetis dapat dihasilkan dengan memberikan input kueri spesifik domain ke model Instruksi Nemotron-4 340B. Ini memungkinkan model untuk menghasilkan respons yang selaras dengan kueri input dalam format yang mirip dengan yang digunakan dalam paper Penyetelan Instruksi dengan GPT-4. Respons ini dapat dihasilkan dengan prompt zero-shot, few-shot, atau chain-of-thought, tergantung pada format respons yang diinginkan.
2. Verifikasi Model Reward: Karena sifat multi-atribut dari Nemotron-4 340B Reward, respons sintetis dapat diberi peringkat oleh atribut HelpSteer2 yang paling diinginkan sehingga hanya respons dengan kinerja tertinggi yang dipertahankan. Ini meniru proses Evaluasi Manusia terhadap kualitas prompt dan menambah lapisan pemantauan kualitas dalam alur kerja SDG.
Para peneliti NVIDIA berhasil menunjukkan efektivitas SDG dalam paper HelpSteer2. Sebanyak 100K baris data percakapan sintetis dibuat melalui alur kerja di atas. Menggunakan dataset ini, tim riset NVIDIA berhasil meluruskan Llama 3 70B (model dasar) untuk menyamai atau melampaui Llama 3 70B Instruksi pada sejumlah benchmark standar. Ini dicapai meskipun hanya menggunakan 1% dari data yang dianotasi oleh manusia yang digunakan untuk melatih model Llama 3 70B Instruksi.