TreeQuest Sakana AI: развернуть многомодельные команды, которые превосходят отдельные LLMS на 30%

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Японская лаборатория ИИ Sakana AI представила новую технику, которая позволяет нескольким крупным языковым моделям (LLMS) сотрудничать по одной задаче, эффективно создавая «команду мечты» агентов ИИ. Метод, называемый Multi-LLM AB-MCTS, позволяет моделям выполнять проб и ошибок и объединять свои уникальные силы для решения проблем, которые являются слишком сложными для любой отдельной модели.

Для предприятий этот подход предоставляет средства для разработки более надежных и способных систем ИИ. Вместо того, чтобы быть заблокированным в одном поставщике или модели, предприятия могут динамически использовать лучшие аспекты различных пограничных моделей, назначая правильный ИИ для правильной части задачи для достижения превосходных результатов.

Сила коллективного интеллекта

Модели Frontier AI быстро развиваются. Тем не менее, каждая модель имеет свои собственные сильные и слабые стороны, полученные из его уникальных учебных данных и архитектуры. Можно преуспеть в кодировании, в то время как другой преуспевает в творческом письме. Исследователи Саканы Ай утверждают, что эти различия не являются ошибкой, а особенностью.

«Мы видим эти предубеждения и разнообразные способности не как ограничения, а как драгоценные ресурсы для создания коллективного интеллекта», — говорится в своем блоге исследователи. Они считают, что, как только величайшие достижения человечества приходят от разнообразных команд, системы ИИ также могут достичь большего, работая вместе. «Объединяя свой интеллект, системы ИИ могут решить проблемы, которые непревзойденные для любой модели».

Думать дольше во время вывода

Новый алгоритм Sakana AI представляет собой метод «масштабирования времени вывода» (также называемый «масштабирование времени испытания»), область исследований, которая стала очень популярной в прошлом году. В то время как большая часть акцента в ИИ была уделяется «масштабированию времени обучения» (делая модели большим и обучающим их на более крупных наборах данных), масштабирование времени вывода повышает производительность за счет выделения большего количества вычислительных ресурсов после того, как модель уже обучена.

Один общий подход включает в себя использование обучения подкреплению для предложения моделей для создания более длинных, более подробных последовательностей цепочки мыслей (COT), как видно из популярных моделей, таких как OpenAI O3 и DeepSeek-R1. Другим, более простым методом является повторяющаяся выборка, где модель дается одинаковая подсказка несколько раз для создания различных потенциальных решений, аналогичных сеансу мозгового штурма. Работа Sakana AI сочетает и продвигает эти идеи.

«Наша структура предлагает более умную, более стратегическую версию Best of N (он же повторная выборка)»,-сказал Venturebeat, научный сотрудник Sakana AI и соавтор статьи Такуя Акиба. «Он дополняет методы рассуждений, такие как Long Cot через RL. Путем динамического выбора стратегии поиска и соответствующего LLM, этот подход максимизирует производительность в пределах ограниченного количества вызовов LLM, обеспечивая лучшие результаты по сложным задачам».

Как работает адаптивный поиск ветвления

Ядром нового метода является алгоритм, называемый адаптивным ветвящимся поиском дерева Монте-Карло (AB-MCT). Это позволяет LLM эффективно выполнять проб и ошибок, разумно уравновешивая две разные стратегии поиска: «поиск глубже» и «поиск шире». Поиск глубже включает в себя получение многообещающего ответа и неоднократно усовершенствование его, при этом поиск более широких означает генерирование совершенно новых решений с нуля. AB-MCTS объединяет эти подходы, позволяя системе улучшить хорошую идею, а также поворачивать и попробовать что-то новое, если она попадает в тупик или обнаруживает другое многообещающее направление.

Для этого в системе используется поиск Монте-Карло Tree (MCTS), алгоритм принятия решений, известный Alphago DeepMind. На каждом этапе AB-MCTS использует вероятностные модели, чтобы решить, более ли стратегически уточнить существующее решение или генерировать новое.

*Различные стратегии масштабирования времени испытания Источник: Sakana AI*

Исследователи сделали это на шаг вперед с помощью множества AB-MCT, что не только решает «что» делать (уточнить по сравнению с генерированием), но и «что» LLM должен сделать это. В начале задачи система не знает, какая модель лучше всего подходит для этой проблемы. Он начинается с того, что пробует сбалансированную смесь доступных LLMS и, по мере его развития, узнает, какие модели более эффективны, что со временем выделяет больше рабочей нагрузки.

Проведение AI «Команда мечты» на проверку

Исследователи протестировали свою систему с несколькими MLM AB-MCTS на эталоне Arc-Agi-2. ARC (Abstraction and Dousing Corpus) предназначена для проверки человеческой способности решать новые проблемы с визуальными рассуждениями, что затрудняет ИИ.

Команда использовала комбинацию пограничных моделей, в том числе O4-Mini, Gemini 2.5 Pro и Deepseek-R1.

Коллектив моделей смог найти правильные решения для более чем 30% из 120 задач испытаний, что значительно превзошло любую из моделей, работающих в одиночку. Система продемонстрировала способность динамически назначать лучшую модель для данной проблемы. На задачах, где существовал четкий путь к решению, алгоритм быстро определил наиболее эффективный LLM и использовал его чаще.

AB-MCT против отдельных моделей (Источник: Сакана Ай) — *AB-MCT против отдельных моделей Источник: Sakana AI*

Более впечатляюще, что команда наблюдала случаи, когда модели решали проблемы, которые ранее были невозможны для любого из них. В одном случае решение, генерируемое моделью O4-Mini, было неверным. Тем не менее, система прошла эту ошибочную попытку DeepSeek-R1 и Gemini-2,5 Pro, которые смогли проанализировать ошибку, исправить ее и в конечном итоге дать правильный ответ.

«Это демонстрирует, что мульти-MLM AB-MCT могут гибко объединить пограничные модели для решения ранее неразрешимых задач, увеличивая пределы того, что достижимо, используя LLM в качестве коллективного интеллекта»,-пишут исследователи.

AB-MTCS может выбирать разные модели на разных этапах решения проблемы (источник: Sakana AI) — *AB-MTCS может выбирать различные модели на разных этапах решения проблемы проблемы: Sakana AI*

«В дополнение к отдельным плюсам и минусам каждой модели тенденция к галлюцинации может значительно различаться между ними», — сказал Акиба. «Создавая ансамбль с моделью, которая с меньшей вероятностью галлюцинирует, можно было бы достичь лучших из обоих миров: мощные логические возможности и сильную обоснованность. Поскольку галлюцинация является основной проблемой в деловом контексте, этот подход может быть ценным для его смягчения».

От исследований до реальных приложений

Чтобы помочь разработчикам и предприятиям применить эту технику, Sakana AI выпустила базовый алгоритм в качестве рамки с открытым исходным кодом, который называется TreeQuest, доступная по лицензии Apache 2.0 (используется для коммерческих целей). TreeQuest предоставляет гибкий API, позволяющий пользователям реализовать множество AB-MCT для своих собственных задач с помощью пользовательской оценки и логики.

«Хотя мы находимся на ранних стадиях применения AB-MCT к конкретным бизнес-проблемам, наше исследование раскрывает значительный потенциал в нескольких областях»,-сказал Акиба.

Помимо эталона Arc-Agi-2, команда смогла успешно применить AB-MCT к таким задачам, как сложное алгоритмическое кодирование и повышение точности моделей машинного обучения.

«AB-MCT также может быть очень эффективным для проблем, требующих итеративных проб и ошибок, таких как оптимизация показателей производительности существующего программного обеспечения»,-сказал Акиба. «Например, его можно использовать для автоматического поиска способов улучшения задержки отклика веб -сервиса».

Выпуск практического инструмента с открытым исходным кодом может проложить путь к новому классу более мощных и надежных приложений для искусственного интеллекта предприятия.

Источник

Сила коллективного интеллекта

Думать дольше во время вывода

Как работает адаптивный поиск ветвления

Проведение AI «Команда мечты» на проверку

От исследований до реальных приложений

Cracking Ai’s Storage Letencement и Superguling Sinperence на краю

Рекомендуем

Оставить комментарий Отменить ответ