MCP-Universe Tenchmark показывает, что GPT-5 не выполняет более половины реальных задач оркестровки

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Принятие стандартов совместимости, таких как протокол контекста модели (MCP), может дать предприятиям представление о том, как агенты и модели функционируют за пределами своих стен. Тем не менее, многие тесты не могут отразить реальные взаимодействия с MCP.

Salesforce AI Research разработала новый эталонный эталон с открытым исходным кодом, который он называет MCP-Universe, который направлен на отслеживание LLM, поскольку они взаимодействуют с серверами MCP в реальном мире, утверждая, что оно будет нарисовать лучшую картину реальных и в реальном времени взаимодействия моделей с инструментами, которые фактически используют предприятия. В своем первоначальном тестировании он обнаружил, что такие модели, как недавно выпущенный GPT-5 от Openai, сильны, но все еще не работают так хорошо в реальных сценариях.

«Существующие показатели преимущественно сосредотачиваются на изолированных аспектах производительности LLM, таких как следующие инструкции, математические рассуждения или функциональные призывы, не предоставляя всестороннюю оценку того, как модели взаимодействуют с реальными серверами MCP в разных сценариях»,-сказал Salesforce в статье.

MCP-Universe захватывает производительность модели с помощью использования инструментов, вызовов для инструментов с несколькими поворотами, длинных контекстных окон и больших инструментов. Он основан на существующих серверах MCP с доступом к фактическим источникам данных и средам.

Джуннан Ли, директор по искусственному искусству в Salesforce, сказал Venturebeat, что многие модели «все еще сталкиваются с ограничениями, которые сдерживают их на задачах предприятия».

«Два из самых больших: длинные проблемы контекста, модели могут потерять отслеживание информации или бороться с тем, чтобы последовательно рассуждать при обращении с очень длинными или сложными входами», — сказал Ли. «И, неизвестные проблемы с инструментами, модели часто не в состоянии беспрепятственно использовать незнакомые инструменты или системы в том, как люди могут адаптироваться на лету. Вот почему очень важно не придерживаться подхода DIY с одной моделью к властным агентам, но вместо этого, чтобы полагаться на платформу, которая объединяет контекст данных, расширил разум и доверие охранников, чтобы действительно удовлетворить потребности в Enterprize AI.

MCP-Universe присоединяется к другим предлагаемым показателям на основе MCPнапример, MCP-Radar из Университета Массачусетса Амхерст и Университет Xi’an Jiaotong, а также Пекинский университет сообщений и телекоммуникаций ‘McPworld. Он также основан на McPevals, который Salesforce выпустил в июле, который фокусируется в основном на агентах. Ли сказал, что самая большая разница между MCP-Universe и McPevals заключается в том, что последний оценивается с помощью синтетических задач.

Как это работает

MCP-Universe оценивает, насколько хорошо каждая модель выполняет серию задач, которые имитируют тех, кто предпринимается предприятиями. Salesforce заявил, что разработал MCP-Universe для включения шести основных доменов, используемых предприятиями: навигация по местоположению, управление репозиториями, финансовый анализ, 3D-дизайн, автоматизация браузеров и поиск в Интернете. Он получил 11 серверов MCP в общей сложности 231 задачи.

Навигация на местоположении фокусируется на географических рассуждениях и выполнении пространственных задач. Исследователи нажали на сервер MCP Google MAPS для этого процесса.
Домен управления репозиторием рассматривает операции CodeBase и подключается к GitHub MCP, чтобы выявить инструменты управления версиями, такие как поиск, отслеживание проблем и редактирование кода.
Финансовый анализ подключается к серверу MCP Yahoo Finance для оценки количественных рассуждений и принятия решений на рынке финансового рынка.
3D Design оценивает использование компьютерных инструментов проектирования через Blender MCP.
Автоматизация браузера, подключенная к Playwright’s MCP, тестирует взаимодействие браузера.
В домене веб-поиска используется сервер Google Search MCP и Fetch MCP для проверки «поиск информации о открытой области» и структурирован как более открытая задача.

Salesforce сказал, что ему приходилось разработать новые задачи MCP, которые отражают реальные варианты использования. Для каждого домена они создали четыре -пять видов задач, которые исследователи считают, что LLM могут легко выполнить. Например, исследователи присвоили моделям цель, которая включала планирование маршрута, определение оптимальных остановок, а затем местонахождение пункта назначения.

Каждая модель оценивается на то, как они выполнили задачи. Ли и его команда решили следовать основанной на выполнении парадигмы оценки, а не более распространенной системой LLM-как-сустава. Исследователи отметили, что парадигма LLM-As-a-Judge «не подходит для нашего сценария MCP-Universe, поскольку некоторые задачи предназначены для использования данных в реальном времени, в то время как знание судьи LLM является статичным».

Исследователи Salesforce использовали три типа оценщиков: оценщики формата, чтобы увидеть, следуют ли агенты и модели требованиям формата, статические оценщики для оценки правильности с течением времени и динамических оценщиков для колеблющихся ответов, таких как цены на полеты или проблемы Github.

«MCP-Universe фокусируется на создании сложных реальных задач с оценщиками, основанными на выполнении, которые могут подчеркнуть агента в сложных сценариях. Кроме того, MCP-Universe предлагает расширенную структуру/кодовую базу для построения и оценки агентов»,-сказал Ли.

Даже у крупных моделей проблемы

Чтобы проверить MCP-Universe, Salesforce оценил несколько популярных проприетарных моделей и моделей с открытым исходным кодом. These include Grok-4 from xAI, Anthropic’s Claude-4 Sonnet and Claude 3.7 Sonnet, OpenAI’s GPT-5, o4-mini, o3, GPT-4.1, GPT-4o, GPT-oss, Google’s Gemini 2.5 Pro and Gemini 2.5 Fkash, GLM-4.5 from Zai, Moonshot’s Kimi-K2, Qwen’s Qwen3 Coder and QWEN3-235B-A22B-Instruct-2507 и Deepseek-V3-0304 от DeepSeek. Каждая протестированная модель имела не менее 120b параметры.

В своем тестировании Salesforce обнаружил, что GPT-5 имел лучший показатель успеха, особенно для задач финансового анализа. Грок-4 последовал за тем, как забивая все модели для автоматизации браузеров, и Sonnet Claude-4.0 выпускает тройку лучших, хотя он не опубликовал какие-либо числа производительности выше, чем любая из моделей, которые она следует. Среди моделей с открытым исходным кодом GLM-4.5 выполнил лучшее.

Тем не менее, MCP-Universe показал, что у моделей возникла трудности с обработкой длинных контекстов, особенно для навигации по местоположению, автоматизации браузеров и финансового анализа, причем эффективность значительно снизилась. В тот момент, когда LLMS столкнулся с неизвестными инструментами, их производительность также падает. LLM продемонстрировали трудности в выполнении более половины задач, которые обычно выполняют предприятия.

«Эти выводы подчеркивают, что нынешние Frontier LLM по-прежнему терпят неудачу в надежном выполнении задач по различным реальным задачам MCP. Таким образом, наш эталон MCP-Universe обеспечивает сложный и необходимый тестовый стенд для оценки производительности LLM в областях, недооцененных существующими ориентирами»,-говорится в статье.

Ли сказал VentureBeat, что он надеется, что предприятия будут использовать MCP-Universe, чтобы получить более глубокое понимание того, где агенты и модели терпят неудачу в задачах, чтобы они могли улучшить свои рамки или реализацию своих инструментов MCP.

Источник

Как это работает

Даже у крупных моделей проблемы

От идеи до 17 миллионов пользователей: как Gamma меняет правила игры в мире презентаций

ZeroGPU от Hugging Face: Как обычные пользователи могут использовать мощные технологии искусственного интеллекта

Рекомендуем

Оставить комментарий Отменить ответ