Мистраль только что обновил свою небольшую модель с открытым исходным кодом от 3.1 до 3.2: вот почему

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Французский AI Darling Mistral сохраняет новые релизы этим летом.

Спустя всего несколько дней после объявления о собственной внутренней A-оптимизированной облачной службе Misstral Compute, хорошо финансируемая компания опубликовала обновление модели с открытым исходным кодом 24B Modstral Small, прыгая с выпуска 3.1 до 3,2-24b Instruct-2506.

Новая версия строится непосредственно на Mistral Small 3.1, стремясь улучшить конкретные поведения, такие как следующие инструкции, стабильность вывода и устойчивость к функциям. Хотя общие архитектурные детали остаются неизменными, обновление вводит целевые уточнения, которые влияют как на внутренние оценки, так и общественные показатели.

Согласно Mistral AI, Small 3.2 лучше придерживаться точных инструкций и снижает вероятность бесконечных или повторяющихся поколений — проблема, иногда наблюдаемая в предыдущих версиях при рассмотрении длинных или неоднозначных подсказок.

Аналогичным образом, шаблон вызова функции был обновлен для поддержки более надежных сценариев использования инструментов, особенно в таких пластах, как VLLM.

И в то же время он может работать на установке с одним графическим процессором NVIDIA A100/H100 80 ГБ, резко открывая варианты для предприятий с жесткими вычислительными ресурсами и/или бюджетами.

Обновленная модель через 3 месяца

Mistral Small 3.1 был объявлен в марте 2025 года как флагманский открытый выпуск в диапазоне параметров 24B. Он предлагал полные мультимодальные возможности, многоязычное понимание и обработку с длинным контекстом до 128 тыс. Токенов.

Модель была явно позиционирована против проприетарных сверстников, таких как GPT-4O Mini, Claude 3.5 Haiku и Gemma 3-IT-и, по словам Мистрала, превзошли их во многих задачах.

Small 3.1 также подчеркнул эффективное развертывание, с претензиями на выполнение вывода на уровне 150 токенов в секунду и поддержкой использования на устройстве с 32 ГБ оперативной памяти.

Этот релиз поступил как с базовыми, так и инструкционными контрольно-пропускными пунктами, предлагая гибкость для точной настройки между доменами, такими как юридические, медицинские и технические области.

Напротив, Small 3.2 фокусируется на хирургическом улучшении поведения и надежности. Он не стремится внедрить новые возможности или изменения архитектуры. Вместо этого он выступает в качестве выпуска обслуживания: очистка краев в генерации выхода, затягивание соблюдения инструкций и переработки системы быстрого взаимодействия.

Маленький 3.2 против маленького 3.1: что изменилось?

Следующие инструкции показывают небольшое, но измеримое улучшение. Внутренняя точность Мистрала выросла с 82,75% у малых 3,1 до 84,78% в малых 3,2.

Аналогичным образом, производительность на внешних наборах данных, таких как Wildbench V2 и Arena Hard V2, значительно улучшилась — WildBench увеличилась почти на 10 процентных пунктов, в то время как Arena жестко более чем удвоилась, начиная с 19,56% до 43,10%.

Внутренние метрики также предполагают уменьшенное повторение выходных данных. Скорость бесконечных поколений упала с 2,11% на малых 3,1 до 1,29% в малых 3,2 — почти на 2 -й снижение. Это делает модель более надежной для разработчиков, создающих приложения, которые требуют последовательных, ограниченных ответов.

Производительность через текстовые и кодирующие тесты представляют более нюансированную картину. Small 3,2 показали рост на Humaneval Plus (от 88,99% до 92,90%), MBPP Pass@5 (от 74,63% до 78,33%) и Simpleqa. Это также скромно улучшило результаты MMLU Pro и Math.

Цитрицы зрения остаются в основном последовательными, с небольшими колебаниями. Chartqa и Docvqa видели предельные выгоды, в то время как AI2D и Mathvista упали менее чем на два процентных пункта. Средняя производительность зрения немного снизилась с 81,39% у малых 3,1 до 81,00% в малых 3,2.

Это согласуется с заявленным намерением Мистрала: маленький 3.2 — это не модельный пересмотр, а уточнение. Таким образом, большинство показателей находятся в пределах ожидаемой дисперсии, и некоторые регрессии, по-видимому, представляют собой компромиссы для целевых улучшений в других местах.

Тем не менее, как пользователь AI Power и Influencer @Chatgpt21 опубликовал на X: «У него стало хуже на MMLU», что означает массивный многозадачный языковой контроль, междисциплинарный тест с 57 вопросами, предназначенными для оценки производительности широкого LLM в разных доменах. Действительно, маленькие 3,2 набрали 80,50%, немного ниже малых 3,1 80,62%.

Лицензия с открытым исходным кодом сделает более привлекательным для пользователей, ориентированных на затрат и индивидуальных ориентиров

Как небольшие 3.1, так и 3.2 доступны по лицензии Apache 2.0 и могут быть доступны через популярность. ИИ -код обмена репозиторием обнимающегося лицо (сам запуск на базе во Франции и Нью -Йорке).

Small 3.2 поддерживается такими рамками, как VLLM и трансформаторы и требует примерно 55 ГБ оперативной памяти графического процессора для работы в точке BF16 или FP16.

Для разработчиков, стремящихся создать или обслуживать приложения, в репозитории модели приведены примеры системы и выводы.

В то время как Mistral Small 3.1 уже интегрирован в такие платформы, как Google Cloud Vertex AI и планируется развертывание на NVIDIA NIM и Microsoft Azure, Small 3.2 в настоящее время представляется ограниченным доступом к самообслуживанию посредством обнимающегося лица и прямого развертывания.

Что предприятия должны знать при рассмотрении Mistral Small 3.2 для их вариантов использования

MiStral Small 3.2 не может сдвинуть конкурентное позиционирование в пространстве модели с открытым весом, но представляет приверженность Мистраль Ай итеративному уточнению модели.

С заметными улучшениями в надежности и обработке задач — особенно в отношении точности обучения и использования инструментов — Small 3.2 предлагает более чистый пользовательский опыт для разработчиков и предприятий, создающих экосистему Mistral.

Тот факт, что он создан французским стартапом и соответствует правилам и правилам ЕС, таким как GDPR и Законом ЕС, также делает его привлекательным для предприятий, работающих в этой части мира.

Тем не менее, для тех, кто ищет самые большие прыжки в эталонных производительности, Small 3.1 остается эталонной точкой, особенно учитывая, что в некоторых случаях, таких как MMLU, Small 3.2 не превосходит своего предшественника. Это делает обновление более ориентированным на стабильность варианта, чем чистое обновление, в зависимости от варианта использования.

Источник

Обновленная модель через 3 месяца

Маленький 3.2 против маленького 3.1: что изменилось?

Лицензия с открытым исходным кодом сделает более привлекательным для пользователей, ориентированных на затрат и индивидуальных ориентиров

Что предприятия должны знать при рассмотрении Mistral Small 3.2 для их вариантов использования

Антропное исследование: ведущие модели искусственного интеллекта показывают до 96% частота шантажа против руководителей

Больничные кибератаки стоят 600 тысяч долларов/час. Вот как ИИ меняет математику

Рекомендуем

Оставить комментарий Отменить ответ