Забудьте о маркировке данных: R-Zero Tencent показывает, как LLM могут тренироваться

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Новая учебная структура Разработано исследователями в Tencent AI Lab и Вашингтонском университете в Сент -Луисе, позволяет крупным языковым моделям (LLMS) улучшаться, не требуя необходимости любые данные по человеку. Техника, называемая R-Zero, использует обучение подкреплению для создания собственных учебных данных с нуля, посвященных одному из основных узких мест в создании самоочевидных систем ИИ. R-Zero работает, имея две независимые модели, эволюционные, взаимодействуя и бросая вызов друг другу.

Эксперименты показывают, что r-Zero существенно улучшает возможности рассуждений в разных LLM, что может снизить сложность и затраты на обучение продвинутому ИИ. Для предприятий этот подход может ускорить разработку специализированных моделей для сложных задач рассуждения без огромных затрат на кураторские наборы данных.

Задача самооткрытия LLMS

Идея, лежащая в основе самоочевидных LLMS, заключается в создании систем ИИ, которые могут автономно генерировать, совершенствовать и учиться на своем собственном опыте. Это предлагает масштабируемый путь к более интеллектуальному и способному ИИ. Тем не менее, основная задача заключается в том, что обучение этих моделях требует больших объемов высококачественных задач и ярлыков, которые действуют как сигналы надзора для ИИ учиться.

Полагаться на человеческие аннотаторы для создания этих данных не только дорого и медленно, но и создает фундаментальное узкое место. Это эффективно ограничивает потенциальные возможности ИИ тем, чему люди могут научить его. Чтобы решить эту проблему, исследователи разработали методы без метки, которые получают сигналы вознаграждения непосредственно из собственных выходов модели, например, путем измерения его уверенности в ответе. Хотя эти методы устраняют необходимость в явных метках, они по-прежнему полагаются на ранее существовавший набор задач, тем самым ограничивая их применимость в по-настоящему самооценку сценариев.

Другие подходы включают в себя наличие моделей, генерирующих свои собственные задачи для обучения. Тем не менее, в таких областях, как открытые рассуждения, где нет простого способа проверить правильность (например, исполнитель кода), обеспечение качества этих самогенерированных данных является значительным препятствием.

Как работает r-Zero

R-Zero-это структура, предназначенная для обучения рассуждений LLM, которые могут развиваться из нулевых внешних данных. Процесс начинается с одной базовой модели, которая разделена на две роли: «претендент» и «решатель». Эти две модели оптимизированы независимо, но развиваются вместе с помощью непрерывного цикла взаимодействия.

Цель претендента состоит в том, чтобы создать новые задачи, которые находятся только на пороге текущих способностей решателя, ни слишком легким, ни невозможным. Решатель, в свою очередь, вознагражден за решение этих все более сложных задач. В письменных комментариях к VentureBeat, Ченгсонгу Хуангу, соавтору газеты и докторантуру в Вашингтонском университете в Сент-Луисе, объяснил, что эта динамика имеет решающее значение, поскольку генерирование высококачественных вопросов часто более сложна, чем найти ответы.

«То, что мы нашли в практической обстановке, так это то, что самой большой проблемой является не генерирование ответов … а скорее генерирование высококачественных, новых и постепенно более сложных вопросов»,-сказал Хуанг. «Мы считаем, что хорошие учителя гораздо реже, чем хорошие ученики. Коэволюционная динамика автоматизирует создание этого« учителя », обеспечивая устойчивую и динамическую учебную программу, которая подталкивает возможности решателя далеко за пределы того, чего мог бы достичь статический, ранее существовавший набор данных».

Как только претендент создает достаточно вопросов, они фильтруют для разнообразия и составлены в учебный набор данных. На этапе обучения решателя это настраивается на эти сложные вопросы. «Правильный» ответ на каждый вопрос определяется большинством голосов по предыдущим попыткам решателя.

Весь этот процесс повторяется, создавая самосовершенствоваемую цикл, который работает без какого-либо вмешательства человека, позволяя двум моделям подталкивать друг друга к постепенно более способным на каждой итерации.

R-Zero в действии

Исследователи протестировали R-Zero на нескольких LLM с открытым исходным кодом, включая модели из семей QWEN3 и Octothinker. Сначала они обучили модели по математическим задачам, а затем проверили, могут ли ученые навыки рассуждения обобщать другие сложные, общие контрольные показатели, такие как MMLU-PRO (многоязычное понимание и рассуждения) и SuperGPQA (наука и рассуждения).

Результаты показали, что r-Zero является высокоэффективной, агентской моделью. Например, он увеличил оценку модели QWEN3-4B-базы на +6,49 в среднем по критериям математических рассуждений. Процесс обучения последовательно и существенно улучшал производительность, причем выгоды накапливаются на несколько итераций. Большая модель QWEN3-8B-базы показала, что его средний математический балл поднимается на +5,51 балла после трех итераций.

Ключевым выводом стал немедленный скачок эффективности после первой итерации, которая подтвердила эффективность роли претендента в создании высококачественной учебной программы. «Это подтверждает, что интеллектуальная учебная программа, генерируемая претендентом, обученным RL, значительно более эффективна, чем у не обученного генератора»,-пишут исследователи в своей статье.

Примечательно, что навыки, полученные из математических задач, были эффективно переданы в общие задачи рассуждения, тем самым расширяя основные возможности моделей. Например, та же самая модель QWEN3-4B-базы показала улучшение +7,54 на критериях рассуждений общего домена. Еще один интересный вывод состоит в том, что R-Zero может служить решающим шагом перед тренировкой. Сначала модели улучшились с помощью R-Zero, достигнув еще более высокой производительности, когда позже настраивались в традиционных маркированных данных, что предполагает, что структура действует как усилитель производительности.

Для предприятий подход «от нулевых данных» может изменить ситуацию, особенно в нишевых областях, где высококачественные данные ограничены или не существуют. Huang подчеркивает, что основным преимуществом R-Zero является его способность обойти самую дорогую и трудоемкую часть разработки ИИ: курация данных.

«Наш подход полностью обходит фундаментальное узкое место необходимости найти, маркировать и курировать высококачественные наборы данных»,-сказал он. «Это не только мера экономии затрат; это путь к созданию ИИ, который может превзойти человеческие возможности, потому что он больше не ограничен масштабами человеческих знаний или данных».

Тем не менее, коэволюционный процесс также выявил критическую проблему. Поскольку претендент успешно генерирует постепенно более сложные проблемы, способность решателя давать надежные «правильные» ответы с помощью большинства голосов начинает снижаться. Исследователи обнаружили, что истинная точность этих сгенерированных этикетков упала с 79% в первой итерации до 63% на треть.по сравнению с сильным Oracle LLM, таким как GPT -4Полем Это снижение качества данных является ключевым компромиссом и потенциальным узким местом для долгосрочной производительности системы.

Хуан признал, что это фундаментальная проблема для парадигмы самоочечения. «Наша работа является доказательством концепции, которое демонстрирует потенциал такого подхода, но мы признаем, что поддержание стабильного, долгосрочного улучшения без плато является значительным препятствием»,-сказал он. «Решение этой проблемы станет важным следующим шагом для всего исследовательского сообщества».

Исследователи также выделяют ключевое ограничение структуры: текущий механизм лучше всего подходит для таких областей, как математика, где правильность может быть объективно определена. Итак, как эта мощная парадигма может распространяться на более субъективные задачи предприятия, такие как генерирование маркетинговой копии или обобщение отчетов?

Хуан предлагает, что потенциальный путь вперед включает в себя добавление третьего, эволюционирующего агента ИИ в микс: «верификатор» или «критик».

«Вместо того, чтобы оценивать простой« правильный »ответ, этот проверчик будет обучен оценке качества вывода решателя на основе более тонких критериев», — пояснил он. «Затем коэволюционная динамика будет включать в себя претендент, создающий подсказку, решатель, генерирующий отклик, и проверку, обеспечивающий качественный сигнал, причем все три модели улучшаются».

Хотя это остается направлением для будущих исследований, он указывает на будущее, когда полностью автономные системы ИИ могут освоить не только объективную логику, но и субъективные рассуждения.

Источник

Задача самооткрытия LLMS

Как работает r-Zero

R-Zero в действии

Openai-Anpropic Cross-тесты подвергают риски джейлбрейка и неправильного использования-что предприятия должны добавить к оценкам GPT-5

NVIDIA за 46,7 млрд. К -2 Q2 доказывает платформу, но ее следующий бой — ASIC Economics по выводу

Рекомендуем

Оставить комментарий Отменить ответ