NVIDIA Menghadirkan Model Terbaru untuk Generasi Data Sintetis dengan NVIDIA Nemotron-4 340B
- Nvidia
Model ini telah dievaluasi menggunakan Reward Bench dan terbukti mencapai kinerja terbaik dalam benchmark meskipun hanya berisi 10K pasang respons yang dianotasi oleh manusia.
Dataset HelpSteer2
Dengan peluncuran Nemotron-4 340B Reward, kami juga memperkenalkan HelpSteer2. Dataset ini dilisensikan secara permisif (CC-BY-4.0) dengan sepuluh ribu pasang respons. Setiap prompt dalam dataset berisi dua respons yang dianotasi oleh manusia menggunakan Skala Likert-5 (dari 0–4, dengan nilai lebih tinggi berarti lebih baik) untuk lima atribut:
- Helpfulness: Kegunaan keseluruhan respons terhadap prompt.
- Correctness: Penyertaan semua fakta yang relevan tanpa kesalahan.
- Coherence: Konsistensi dan kejelasan ekspresi.
- Complexity: Kedalaman intelektual yang diperlukan untuk menulis respons (apakah respons dapat ditulis oleh siapa saja dengan kompetensi bahasa dasar atau memerlukan keahlian domain yang mendalam).
- Verbosity: Jumlah detail yang disertakan dalam respons, relatif terhadap apa yang diminta dalam prompt.
Dataset ini difokuskan pada data percakapan, termasuk percakapan multi-giliran dalam bahasa Inggris.
Pelatihan Model Reward SteerLM
Model Reward Nemotron-4 340B dilatih pada model Dasar Nemotron-4 340B dengan lapisan linier tambahan yang mengubah representasi lapisan akhir token akhir-respons menjadi lima nilai skalar, masing-masing sesuai dengan atribut HelpSteer. Proses pelatihan ini disebut pelatihan Model Reward SteerLM.