NVIDIA представила модель Llama-3.1-Nemotron-70B-Instruct, которая по их заявлению, превосходит GPT-4o и Claude 3.5 Sonnet, несмотря на то, что содержит всего 70 миллиардов параметров.
Модель создана на основе Llama3.1 70B от META и была настроена NVIDIA для улучшения ответов, генерируемых ИИ. NVIDIA использует настройку с применением структурированных данных, чтобы направлять модель и обеспечивать генерацию более полезных ответов. С 70 миллиардами параметров, модель демонстрирует результаты, которые значительно превосходят её весовую категорию. Компания утверждает, что модель превосходит ведущие решения от OpenAI и Antrophic в ключевых бенчмарках. Например, в тестах Arena Hard модель NVIDIA набрала 85 баллов, тогда как GPT-4o и Claude 3.5 Sonnet получили 79.3 и 79.2 балла соответственно. В других бенчмарках, таких как AlpacaEval и MT-Bench, модель NVIDIA также занимает лидирующие позиции с результатами 57.6 и 8.98, что выше результатов GPT (57.5 / 8.74) и Claude (52.4 / 8.81).

Эта языковая модель прошла обучение с использованием метода ответов на основе обратной связи от человека (RLHF), конкретно применяя алгоритм REINFORCE. В процессе использовалась модель вознаграждения, основанная на архитектуре больших языковых моделей, а также специальные подсказки, которые направляли поведение модели.
Обучение началось с уже существующей языковой модели, настроенной на выполнение инструкций. Она была обучена с использованием Llama-3.1-Nemotron-70B-Reward и HelpSteer2-Preference подсказок на основе модели Llama-3.1-70B-Instruct. Для локального запуска модели требуются четыре графических процессора с 40 ГБ видеопамяти, либо два с 80 ГБ, а также 150 ГБ свободного места на диске.