Tiktok Mater Company Bytedance выпускает новую модель с открытым исходным кодом Seed-OSS-36B с 512K токеном контекста

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Tiktok снова вносит заголовки сегодня после того, как Белый дом присоединился к популярному приложению в социальных сетях, но ее материнская компания Bytedance, китайский веб -гигант, также выступил с неожиданным объявлением.

Компания Семя команды исследователей искусственного интеллекта сегодня выпустила Seed-OSS-36B на веб-сайте Code Code Code.

Seed-OSS-36B-это новая линия с открытым исходным кодом, крупные языковые модели (LLM), предназначенная для усовершенствованных рассуждений, и удобство для разработчиков с помощью удобства для разработчиков с более длинный токен контекст — То есть, сколько информации могут принять модели в качестве входов, а затем выводятся в одном обмене — чем многие конкурирующие LLM от американских технологических компанийдаже лидеры, такие как Openai и Anpropic.

Коллекция представляет три основных варианта:

SEED-OSS-36B-BASE с синтетическими данными
SEED-OSS-36B-BASE без синтетических данных
SEED-OSS-36B-НЕКОТОРЫЙ

Выпустив как синтетические, так и несинтетические версии модели Seed-OSS-36B-базы, команда семян стремилась сбалансировать практические результаты с гибкостью исследований.

А вариант синтетических данных, тренируется с дополнительными данными инструкций, последовательно обеспечивает более сильные результаты по стандартным тестам и предназначен как более высокий вариант общего назначения.

А несинтетическая модель, Напротив, пропускает эти дополнения, создавая более чистая основа, которая избегает потенциального смещения или искажения введено данными синтетических инструкций.

Предоставляя оба, команда предоставляет прикладным пользователям доступ к улучшенным результатам, обеспечивая при этом исследователи сохранять нейтральную базовую линию для изучения методов после тренировки.

Тем временем Модель SEED-OSS-36B-Instruct отличается тем, что это Пост обучения с данными инструкций Расположение приоритетов выполнения задачи и инструкции, вместо того, чтобы служить исключительно в качестве модели фундамента.

Все три модели выпускаются по лицензии Apache-2.0, позволяя бесплатно использовать, модификацию и перераспределение исследователями и разработчиками, работающими на предприятия.

Это означает Они могут использоваться для питания коммерческих приложений, внутренних для компании или внешнего/клиента, без уплаты байеданса любых лицензионных сборов или использования интерфейса прикладных программ (API).

Это продолжает лето в 2025 году тенденция китайских компаний, которые отправляют мощные модели с открытым исходным кодом, когда OpenAI пытается догнать свой собственный дуэт с открытым исходным кодом, выпущенный ранее в этом месяце.

Позиции команды семян Семя для международных приложенийподчеркивая универсальность между рассуждениями, агентским выполнением задач и многоязычными настройками.

Команда семян, сформированная в 2023 году, сосредоточилась на создании моделей фундамента, которые могут служить как исследования, так и прикладные варианты использования.

Дизайн и основные функции

Архитектура, лежащая в основе Seed-OS-36B, объединяет знакомые варианты дизайна, такие как моделирование причинно-следственного языка, сгруппированное внимание запроса, активация Swiglu, RMSnorm и позиционное кодирование веревки.

Каждая модель имеет 36 миллиардов параметров по 64 уровням и поддерживает словарный запас 155 000 токенов.

Одной из определяющих особенностей является его Нативные возможности длительного контекста с максимальной длиной 512 000 токенов, Предназначен для обработки расширенных документов и цепочек рассуждений без потери производительности.

Это вдвое больше нового семейства моделей GPT-5 Openai и примерно эквивалентно около 1600 страниц текста, Длина христианской Библии.

Другим отличительным элементом является введение мыслительный бюджеткоторый позволяет разработчикам указать, сколько рассуждений должна выполнять модель, прежде чем давать ответ.

Это то, что мы видели и из других недавних моделей с открытым исходным кодом, в том числе новую Nemotron-Nano-9b-V2 от Nvidia, также доступные для обнимающего лица.

На практике это означает, что команды могут настраивать производительность в зависимости от сложности задачи и требований к эффективности развертывания.

Бюджеты рекомендуются в кратных 512 токенах, причем 0 обеспечивает режим прямого ответа/ режим/ режим ответа/

Конкурентная эффективность на сторонних тестах

Опубликованы тесты, опубликованные с позицией выпуска Seed-OSS-36B среди более сильных крупных моделей с открытым исходным кодом. Вариант инструктов, в частности, публикует современные результаты в нескольких областях.

Математика и рассуждения: Seed-OSS-36B-Instruct достигает 91,7 процента на AIME24 и 65 On Beyondaimeоба представляют «современный» с открытым исходным кодом (SOTA).
Кодирование: On LiveCodeBench V6, записи модели инструктов 67.4еще один результат SOTA.
Обработка длинного контекста: На линейке по длине контекста 128K, он достигает 94.6сообщается о самых высоких результатах с открытым исходным кодом.
Базовая модель производительность: Базовый вариант синтетических данных обеспечивает 65.1 на MMLU-Pro и 81,7 на математикеоба современных приводят к их категориям.

Бейс-версия без синтеза, хотя и немного отставая от многих мер, оказывается конкурентоспособной сами по себе.

Это превосходит свой синтетический аналог на GPQA-D, Предоставление исследователям более чистым, без инструкций базовый уровень для экспериментов.

Для предприятий, сравнивающих открытые варианты, эти результаты Предложить Seed-OSS предлагает сильный потенциал по математике, кодирующим и длинным рабочим нагрузкам все еще обеспечивая гибкость для примеров использования исследований.

Доступ и развертывание

Помимо производительности, команда SEED подчеркивает доступность для разработчиков и практиков. Модели можно развернуть с помощью трансформаторов обнимающего лицас Поддержка квантования как в 4-битных, так и в 8-битных форматах Чтобы уменьшить требования к памяти.

Они также Интегрируйте с VLLM для масштабируемой порциивключая примеры конфигурации и инструкции API -сервера.

Для дальнейшего снижения барьеров команда включает в себя сценарии для вывода, быстрого настройки и интеграции инструментов.

Для Технические лидеры управляют небольшими командами или работают в рамках бюджетных ограниченийЭти положения позиционируются для экспериментов с моделями 36 миллиардов параметров более доступными.

Лицензирование и соображения для лиц, принимающих решения в предприятии

С моделями, предлагаемыми в соответствии с Apache-2.0, организации могут принять их без ограничительных условий лицензирования, что является важным фактором для команд, балансирующих юридические и оперативные проблемы.

Для лиц, принимающих решения, оценивающие ландшафт с открытым исходным кодом, выпуск приносит три вывода:

Современные показатели по математике, кодированию и рассуждениям о длинном контексте.
Баланс между более эффективными синтетическими моделями и базовыми исследованиями чистых исследований.
Функции доступности, которые снижают эксплуатационные накладные расходы для команд Lean Engineering.

Размещая сильную производительность и гибкое развертывание в рамках открытой лицензии, команда Seed Seedance добавила новые варианты как для предприятий, исследователей, так и для разработчиков.

Источник

Дизайн и основные функции

Конкурентная эффективность на сторонних тестах

Доступ и развертывание

Лицензирование и соображения для лиц, принимающих решения в предприятии

Погружение в мир фейковых видео: как не утонуть в потоке VEO 3

Replicate: Как Docker-революционер меняет мир искусственного интеллекта

Рекомендуем

Оставить комментарий Отменить ответ