NVIDIA Menghadirkan Model Terbaru untuk Generasi Data Sintetis dengan NVIDIA Nemotron-4 340B

Model Data Sintetis NVIDIA
Sumber :
  • Nvidia

Model ini telah dievaluasi menggunakan Reward Bench dan terbukti mencapai kinerja terbaik dalam benchmark meskipun hanya berisi 10K pasang respons yang dianotasi oleh manusia.

Friedrich Nietzsche: "Pemimpin Sejati Adalah Mereka yang Mampu Menginspirasi Perubahan, Bukan Status Quo"

Dataset HelpSteer2

Dengan peluncuran Nemotron-4 340B Reward, kami juga memperkenalkan HelpSteer2. Dataset ini dilisensikan secara permisif (CC-BY-4.0) dengan sepuluh ribu pasang respons. Setiap prompt dalam dataset berisi dua respons yang dianotasi oleh manusia menggunakan Skala Likert-5 (dari 0–4, dengan nilai lebih tinggi berarti lebih baik) untuk lima atribut:

  • Helpfulness: Kegunaan keseluruhan respons terhadap prompt.
  • Correctness: Penyertaan semua fakta yang relevan tanpa kesalahan.
  • Coherence: Konsistensi dan kejelasan ekspresi.
  • Complexity: Kedalaman intelektual yang diperlukan untuk menulis respons (apakah respons dapat ditulis oleh siapa saja dengan kompetensi bahasa dasar atau memerlukan keahlian domain yang mendalam).
  • Verbosity: Jumlah detail yang disertakan dalam respons, relatif terhadap apa yang diminta dalam prompt.
Friedrich Nietzsche: "Kebaikan yang sejati adalah apa yang kita ciptakan, bukan apa yang diajarkan."

Dataset ini difokuskan pada data percakapan, termasuk percakapan multi-giliran dalam bahasa Inggris.

Pelatihan Model Reward SteerLM

Friedrich Nietzsche: "Dalam Pertempuran Melawan Diri Sendiri, Kita Menemukan Kekuatan Sejati"

Model Reward Nemotron-4 340B dilatih pada model Dasar Nemotron-4 340B dengan lapisan linier tambahan yang mengubah representasi lapisan akhir token akhir-respons menjadi lima nilai skalar, masing-masing sesuai dengan atribut HelpSteer. Proses pelatihan ini disebut pelatihan Model Reward SteerLM.

Halaman Selanjutnya
img_title