Nvidia выпускает новую небольшую открытую модель Nemotron-Nano-9B-V2 с рассуждением включения/выключения переключения/выключения

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Маленькие модели имеют момент. По пятам выпуска новой модели AI Vision, достаточно маленькой, чтобы вписаться в умные часы от MIT -побочного жидкого искусственного интеллекта, и модель достаточно маленькой, чтобы работать на смартфоне от Google, Nvidia присоединяется к вечеринке сегодня с собственной моделью с новой маленькой языком (SLM), Nemotron-Nano-9b-V2который достиг высочайшей производительности в своем классе на выбранных критериях и поставляется с возможностью для пользователей переключать и выключать «рассуждения», то есть самостоятельно, перед выводом ответа.

В то время как 9 миллиардов параметров больше, чем некоторые из многомиллионных параметров Small ModelNvidia отмечает, что это значимое сокращение от его первоначального размера 12 миллиардов параметров и предназначен для подгонки на Одиночный графический процессор NVIDIA A10Полем

Как сказал Oleksii Kuchiaev, директор NVIDIA по модели AI пост-тренировок, в ответ на вопрос, который я поместил ему: «12B был обрезан до 9b, чтобы специально подготовить A10, который является популярным выбором GPU для развертывания. Это также гибридная модель, которая позволяет ему обрабатывать больший размер партии и быть в 6 раз быстрее, чем модели трансформаторов аналогичного размера ».

Для контекста многие ведущие LLM находятся в диапазоне параметров 70 миллиардов (параметры отзывов относятся к внутренним настройкам, регулирующим поведение модели, в более широком смысле обозначают более крупную и более способную, но в то же время более интенсивную вычислительную модель).

Модель обрабатывает несколько языков, включая английский, немецкий, испанский, французский, итальянский, японский и в расширенных описаниях, корейских, португальских, русских и китайских. Это подходит для обоих следующая инструкция и генерация кода.

Nemotron-Nano-9B-V2 и его наборы данных перед тренировками доступны прямо сейчас по обниманию лица и через модельный каталог компании.

Слияние трансформатора и архитектур мамбы

Он основан на Nemotron-H, наборе гибридных моделей мамба-трансформатора, которые составляют основу для последних предложений компании.

В то время как большинство популярных LLM — это чистые «трансформаторные» модели, которые полностью полагаются на слои внимания, они могут стать дорогостоящими по памяти и вычислять по мере роста длины последовательности.

Вместо этого, модели Nemotron-H и другие, использующие архитектуру Mamba, разработанную исследователями из Университета Карнеги-Меллона и Принстона, также Плетение в селективных космических моделях состояния (или SSM), которые могут обрабатывать очень длинные последовательности информации внутри и выходить, поддерживая состояние.

Эти слои линейно масштабируются с длиной последовательности и могут обрабатывать контексты гораздо дольше, чем стандартное самопринятие без той же памяти и вычислительных накладных расходов.

A hYbrid Mamba-Transformer снижает эти затраты, заменяя большую часть внимания космосом линейного времени, достигая до 2–3 × выше пропускной способности в длинных контекстах с сопоставимой точностью.

Другие лаборатории искусственного интеллекта за пределами Nvidia, такие как AI2, также выпустили модели на основе архитектуры Mamba.

Переключить/рассуждения об использовании языка

Nemotron-Nano-9b-V2 позиционируется как унифицированный чат только для текста и модель рассуждений, обученная с нуля.

А Система по умолчанию создает след рассуждений, прежде чем предоставить окончательный ответ, хотя пользователи могут переключать это поведение через простые управляющие токены, такие как /Think или /no_think.

Модель также яntroduces rewtime runtime «Бюджет мыслительного бюджета»который Позволяет разработчикам ограничить количество токенов посвящен внутренним рассуждениям перед моделью завершит ответ.

Этот механизм направлен на сбалансировку точности с задержкой, особенно в таких приложениях, как поддержка клиентов или автономные агенты.

Тесты рассказывают многообещающую историю

Результаты оценки подчеркивают конкурентную точность против других открытых мелких моделей. Протестировано в режиме «рассуждать» с использованием набора Nemo Skills, Nemotron-Nano-9b-V2 достигает 72,1 процента на AIME25В 97,8 процента по математике 500, 64,0 процента на GPQAи 71,1 процента на livecodebenchПолем

Оценки по следующим инструкциям и давно контекстовые тесты также сообщаются: 90,3 процента на ifeval, 78,9 процента на тесте правителя 128Kи меньшие, но измеримые успехи на BFCL V3 и HLE Clarkmark.

По всем направлениям, Nano-9B-V2 показывает более высокую точность, чем QWEN3-8B, Общая точка сравнения.

NVIDIA иллюстрирует эти результаты с кривыми точностью и бюджетами, которые показывают, как производительность масштабируется как токеновое разрешение на рассуждение увеличивается. Компания предполагает, что тщательный контроль бюджета может помочь разработчикам оптимизировать как качество, так и задержку в сценариях использования производства.

Обученный на наборе данных синтетических данных

Как модель Nano, так и семейство Nemotron-H полагаются на смесь кураторских данных по веб-источникам и синтетическим обучением.

Корпуса включают общий текст, код, математику, науку, юридические и финансовые документы, а также наборы данных в стиле выравнивания.

NVIDIA подтверждает использование синтетических следов рассуждений, генерируемых другими крупными моделями для укрепления производительности на сложных критериях.

Лицензирование и коммерческое использование

Модель Nano-9B-V2 выпускается в соответствии с лицензионным соглашением Nvidia Open Model, которое в последний раз обновляется в июне 2025 года.

Лицензия предназначена для разрешений и предприятия. Nvidia явно заявляет, что модели коммерчески полезно из коробкии это Разработчики могут свободно создавать и распространять производные модели.

Важно отметить, что NVIDIA не требует права собственности на какие -либо результаты, генерируемые моделью, оставляя ответственность и права с разработчиком или организацией, использующими ее.

Для разработчика предприятия это означает, что модель может быть введена в производство немедленно без переговоров по отдельной коммерческой лицензии или оплате сборов, связанных с порогами использования, уровнями доходов или количества пользователей. Не существует предложений, требующих оплачиваемой лицензии, когда компания достигнет определенной масштаба, в отличие от некоторых многоуровневых открытых лицензий, используемых другими поставщиками.

Тем не менее, соглашение включает в себя несколько условий, которые должны соблюдать предприятия:

Ограждения: Пользователи не могут обойти или отключать встроенные механизмы безопасности (называемые «ограждениями») без реализации сопоставимых замен, подходящих для их развертывания.
Перераспределение: Любое перераспределение модели или производных должно включать в себя текст и атрибуцию лицензии Nvidia Open Model («Лицензировано NVIDIA Corporation по лицензии NVIDIA Open Model»).
Согласие: Пользователи должны соблюдать торговые правила и ограничения (например, законы об экспорте США).
Достоверные условия ИИ: Использование должно соответствовать NVIDIA, заслуживающему доверия Руководства по ИИ, которые охватывают ответственное развертывание и этические соображения.
Судебная сфера: Если пользователь инициирует авторское право или патентные судебные разбирательства против другого организации, утверждая, что модель утверждает, что лицензия автоматически завершается.

Эти условия сосредоточены на юридическом и ответственном использовании, а не на коммерческом масштабе. Предприятиям не нужно искать дополнительные разрешения или платить роялти в NVIDIA просто за создание продуктов, монетизацию их или масштабирование своей пользовательской базы. Вместо этого они должны убедиться, что практика развертывания уважает безопасность, атрибуцию и обязательства по соответствию.

Позиционирование на рынке

С Nemotron-Nano-9B-V2 NVIDIA нацелена на разработчиков, которым нужен баланс мышления и эффективность развертывания в меньших масштабах.

Функции управления бюджетом времени выполнения и рассуждения предназначены для обеспечения строителей системы большую гибкость в управлении точностью в зависимости от скорости отклика.

Их освобождение от обнимающего лица и модельного каталога NVIDIA указывает на то, что они предназначен для того, чтобы быть широко доступным для экспериментов и интеграции.

Выпуск Nvidia Nemotron-Nano-9B-V2 демонстрирует постоянное внимание к эффективности и контролируемым рассуждениям в языковых моделях.

Объединив гибридные архитектуры с новыми методами сжатия и обученияКомпания предлагает инструменты разработчиков, которые стремятся поддерживать точность при одновременном снижении затрат и задержки.

Источник

Слияние трансформатора и архитектур мамбы

Переключить/рассуждения об использовании языка

Тесты рассказывают многообещающую историю

Обученный на наборе данных синтетических данных

Лицензирование и коммерческое использование

Позиционирование на рынке

Объятие лица: 5 способов, которыми предприятия могут сократить расходы

11 полезных ИИ-инструментов для фрилансеров: как выбрать и использовать в 2025 году

Рекомендуем

Оставить комментарий Отменить ответ