NVIDIA Menghadirkan Model Terbaru untuk Generasi Data Sintetis dengan NVIDIA Nemotron-4 340B

Model Data Sintetis NVIDIA
Model Data Sintetis NVIDIA
Sumber :
  • Nvidia

Jakarta, INTI - Sejak diperkenalkannya dan adopsi luas Model Bahasa Besar (LLM), data telah menjadi nyawa dari bisnis yang membangun sistem AI yang akurat dan aman. Data sebuah perusahaan mewakili pengetahuan kumulatifnya dan dapat dimanfaatkan dalam berbagai cara, mulai dari kustomisasi (Penyetelan Ulang Supervised, Penyetelan Efisien Parameter, pelatihan ulang lanjutan, dan lainnya), hingga pelatihan Model Bahasa Kecil (SLM) yang baru dan spesifik domain. Data, meskipun menjadi salah satu bagian paling kritis dari jalur AI modern, secara tradisional mahal dan membatasi selama pengembangan LLM dan SLM inovatif, mulai dari membayar anotator manusia hingga menavigasi pengumpulan data domain spesifik dalam volume besar. Proses menghasilkan data berkualitas tinggi saat ini adalah tugas yang sulit.

Melalui proses yang disebut Generasi Data Sintetis (SDG), bisnis dapat menambah simpanan data mereka yang ada dengan memanfaatkan LLM untuk membuat data berkualitas tinggi yang disesuaikan dalam volume besar.

NVIDIA mengumumkan serangkaian model baru yang secara khusus dibangun untuk SDG, keluarga model Nemotron-4 340B, termasuk Model Reward mutakhir dan model Instruksi untuk membantu dalam SDG, semuanya dirilis di bawah lisensi yang permisif yang akan memungkinkan bisnis dan pengembang menggunakan keluaran model untuk membangun model yang luar biasa.

Lisensi Model Terbuka NVIDIA

Dengan peluncuran keluarga model Nemotron-4 340B, yang mencakup Model Dasar, Instruksi, dan Reward, NVIDIA memperkenalkan Lisensi Model Terbuka NVIDIA, lisensi permisif yang memungkinkan distribusi, modifikasi, dan penggunaan model Nemotron-4 340B dan keluarannya untuk penggunaan pribadi, penelitian, dan komersial, tanpa persyaratan atribusi.

Memperkenalkan Model Reward Nemotron-4 340B

Model Reward Nemotron-4 340B adalah Model Reward multidimensi mutakhir. Model ini mengambil teks prompt sebagai input dan mengembalikan daftar angka pecahan yang terkait dengan lima atribut dalam dataset HelpSteer2, yang terdaftar di bawah ini.

Model ini telah dievaluasi menggunakan Reward Bench dan terbukti mencapai kinerja terbaik dalam benchmark meskipun hanya berisi 10K pasang respons yang dianotasi oleh manusia.

Dataset HelpSteer2

Dengan peluncuran Nemotron-4 340B Reward, kami juga memperkenalkan HelpSteer2. Dataset ini dilisensikan secara permisif (CC-BY-4.0) dengan sepuluh ribu pasang respons. Setiap prompt dalam dataset berisi dua respons yang dianotasi oleh manusia menggunakan Skala Likert-5 (dari 0–4, dengan nilai lebih tinggi berarti lebih baik) untuk lima atribut:

  • Helpfulness: Kegunaan keseluruhan respons terhadap prompt.
  • Correctness: Penyertaan semua fakta yang relevan tanpa kesalahan.
  • Coherence: Konsistensi dan kejelasan ekspresi.
  • Complexity: Kedalaman intelektual yang diperlukan untuk menulis respons (apakah respons dapat ditulis oleh siapa saja dengan kompetensi bahasa dasar atau memerlukan keahlian domain yang mendalam).
  • Verbosity: Jumlah detail yang disertakan dalam respons, relatif terhadap apa yang diminta dalam prompt.

Dataset ini difokuskan pada data percakapan, termasuk percakapan multi-giliran dalam bahasa Inggris.

Pelatihan Model Reward SteerLM

Model Reward Nemotron-4 340B dilatih pada model Dasar Nemotron-4 340B dengan lapisan linier tambahan yang mengubah representasi lapisan akhir token akhir-respons menjadi lima nilai skalar, masing-masing sesuai dengan atribut HelpSteer. Proses pelatihan ini disebut pelatihan Model Reward SteerLM.

Generasi Data Sintetis

SDG mengacu pada proses pembuatan dataset yang dapat digunakan untuk berbagai kustomisasi model, dari Penyetelan Ulang Supervised (SFT), Penyetelan Efisien Parameter (PEFT) termasuk Adaptasi Peringkat Rendah (LoRA), dan pelurusan model (menggunakan metode seperti RLAIF, DPO, dan lainnya). SDG dapat diterapkan pada berbagai aplikasi, mulai dari pengambilan, hingga kurasi dataset evaluasi, hingga sistem rekomendasi. Untuk artikel ini, kita fokus pada pelurusan model sebagai penggunaan utama untuk keluarga model Nemotron-4 340B. Pelatihan pelurusan adalah subdisiplin yang berkembang pesat dalam domain AI Generatif dan dapat diimplementasikan dalam beberapa cara berbeda.

Alur Generasi Data Sintetis

Secara umum, SDG dibagi menjadi dua bagian utama, yang dijelaskan di bawah ini.

1.    Generasi Respons Sintetis: Data respons sintetis dapat dihasilkan dengan memberikan input kueri spesifik domain ke model Instruksi Nemotron-4 340B. Ini memungkinkan model untuk menghasilkan respons yang selaras dengan kueri input dalam format yang mirip dengan yang digunakan dalam paper Penyetelan Instruksi dengan GPT-4. Respons ini dapat dihasilkan dengan prompt zero-shot, few-shot, atau chain-of-thought, tergantung pada format respons yang diinginkan.

2.    Verifikasi Model Reward: Karena sifat multi-atribut dari Nemotron-4 340B Reward, respons sintetis dapat diberi peringkat oleh atribut HelpSteer2 yang paling diinginkan sehingga hanya respons dengan kinerja tertinggi yang dipertahankan. Ini meniru proses Evaluasi Manusia terhadap kualitas prompt dan menambah lapisan pemantauan kualitas dalam alur kerja SDG.

Para peneliti NVIDIA berhasil menunjukkan efektivitas SDG dalam paper HelpSteer2. Sebanyak 100K baris data percakapan sintetis dibuat melalui alur kerja di atas. Menggunakan dataset ini, tim riset NVIDIA berhasil meluruskan Llama 3 70B (model dasar) untuk menyamai atau melampaui Llama 3 70B Instruksi pada sejumlah benchmark standar. Ini dicapai meskipun hanya menggunakan 1% dari data yang dianotasi oleh manusia yang digunakan untuk melatih model Llama 3 70B Instruksi.

Data berfungsi sebagai tulang punggung LLM. Mengenali Generasi Data Sintetis sebagai garis depan berikutnya dalam meningkatkan aplikasi AI Generatif untuk perusahaan, NVIDIA menawarkan keluarga model Nemotron-4 340B dan alur kerja SDG untuk memungkinkan pengembang dan perusahaan meningkatkan berbagai kasus penggunaan data sintetis, dengan lisensi permisif dan salah satu model instruksi dan model reward berkualitas tinggi yang tersedia secara terbuka.