Остановить тесты в лаборатории: арена включения показывает, как LLM работают в производстве

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Концентраторные модели тестирования стали важными для предприятий, что позволяет им выбирать тип производительности, которая резонирует с их потребностями. Но не все тесты построены одинаково, и многие тестовые модели основаны на статических наборах данных или средах тестирования.

Исследователи из Inclusion AI, который связан с Antibaba’s Ant Group, предложили новую модель лидеров и эталон, который больше фокусируется на производительности модели в реальных сценариях. Они утверждают, что LLMS нужна таблица лидеров, которая учитывает, как люди их используют и сколько людей предпочитают свои ответы по сравнению со статическими моделями возможностей знаний.

В статье исследователи изложили основу для арены включения, которая оценивает модели на основе предпочтений пользователей.

«Чтобы устранить эти пробелы, мы предлагаем Arena Inclusion Arena, живую таблицу лидеров, которая соединяет реальные приложения AI с современными LLMS и MLLM. В отличие от краудсорсинговых платформ, наша система случайным образом запускает модельные сражения во время многоводимовых диалогов человеческих и аивых приложений в RealWorld»,-говорится в документе.

Арена включения выделяется среди других модельных лидеров, таких как MMLU и OpenLLM, из-за его реального аспекта и его уникального метода ранжирования моделей. В нем используется метод моделирования Брэдли-Терри, аналогичный тому, который используется Chatbot Arena.

Включение Arena работает, интегрируя эталон в приложения AI, чтобы собрать наборы данных и провести человеческие оценки. Исследователи признают, что «количество первоначально интегрированных приложений с AI, на основе AI, ограничено, но мы стремимся создать открытый союз для расширения экосистемы».

К настоящему времени большинство людей знакомы с таблицами лидеров, а тесты, рекламирующие производительность каждого нового LLM, выпущенного такими компаниями, как Openai, Google или Anthropic. VentureBeat не привыкать к этим таблицам лидеров, поскольку некоторые модели, такие как Xai’s Grok 3, показывают свою мощь, возглавляя таблицу лидеров Chatbot Arena. Исследователи ИИ включения утверждают, что их новая таблица лидеров «обеспечивает оценки, отражающие практические сценарии использования», поэтому у предприятий есть лучшая информация о моделях, которые они планируют выбрать.

Использование метода Брэдли-Терри

Арена включения черпает вдохновение в Chatbot Arena, используя метод Брэдли-Терри, в то время как Chatbot Arena также использует метод ранжирования ELO одновременно.

Большинство таблиц лидеров полагаются на метод ELO, чтобы установить рейтинг и производительность. ELO ссылается на рейтинг ELO в шахматах, который определяет относительный навык игроков. И Эло, и Брэдли-Терри являются вероятностными рамками, но исследователи сказали, что Брэдли-Терри дает более стабильные рейтинги.

«Модель Брэдли-Терри обеспечивает надежную основу для вывода скрытых способностей из парных результатов сравнения»,-говорится в газете. «Тем не менее, в практических сценариях, особенно с большим и растущим числом моделей, перспектива исчерпывающего парного сравнения становится вычислительной и ресурсной и интенсивной ресурсной.

Чтобы сделать рейтинг более эффективным перед лицом большого количества LLMS, Arena Inclusion имеет два других компонента: механизм соответствия размещения и выборка близости. Механизм соответствия размещения оценивает первоначальный рейтинг для новых моделей, зарегистрированных для таблицы лидеров. Затем отбор близости ограничивает эти сравнения моделями в одной и той же области доверия.

Как это работает

Так как это работает?

Структура Inclusion Arena интегрируется в приложения с AI. В настоящее время на арене включения есть два приложения: приложение для чата персонажа Joyland и приложение для образовательной связи T-Box. Когда люди используют приложения, подсказки отправляются в несколько LLM за кулисами для ответов. Затем пользователи выбирают, какой ответ им нравится больше всего, хотя они не знают, какая модель сгенерировала ответ.

Структура рассматривает предпочтения пользователя для создания пар моделей для сравнения. Алгоритм Брэдли-Терри затем используется для расчета оценки для каждой модели, которая затем приводит к окончательному таблицу лидеров.

Включение ИИ ограничило свой эксперимент в данных до июля 2025 года, включающий 501 003 парных сравнений.

Согласно первоначальным экспериментам с ареной включения, наиболее эффективной моделью являются сонет Anpropic Claude 3.7, Deepseek V3-0324, Claude 3.5 Sonnet, Deepseek V3 и Qwen Max-0125.

Конечно, это были данные из двух приложений с более чем 46 611 активными пользователями, согласно документу. Исследователи сказали, что они могут создать более надежную и точную таблицу лидеров с большим количеством данных.

Больше лидеров, больше вариантов

Растущее число выпущенных моделей делает предприятиям более сложным выбирать, какие LLMS начать оценку. Таблицы лидеров и критерии направляют технических лиц, принимающих технические решения для моделей, которые могут обеспечить наилучшие результаты для их потребностей. Конечно, организации должны затем провести внутренние оценки, чтобы обеспечить эффективность LLMS для их приложений.

Это также дает представление о более широком ландшафте LLM, подчеркивая, какие модели становятся конкурентоспособными по сравнению с их сверстниками. Недавние тесты, такие как Rewardbench 2 из Института ИИ Аллен, пытаются выравнивать модели с реальными случаями использования для предприятий.

Источник

Использование метода Брэдли-Терри

Как это работает

Больше лидеров, больше вариантов

Как ИИ помогает бизнесу — от автоматизации до повышения продуктивности

Погружение в мир фейковых видео: как не утонуть в потоке VEO 3

Рекомендуем

Оставить комментарий Отменить ответ