Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Когда модели пытаются пробиться или стать чрезмерно любезным для пользователя, это может означать проблемы для предприятий. Вот почему важно, чтобы, в дополнение к оценке эффективности, организации проводили тестирование выравнивания.
Тем не менее, аудиты выравнивания часто представляют две основные проблемы: масштабируемость и валидация. Тестирование выравнивания требует значительного времени для людей -исследователей, и сложно гарантировать, что аудит все поймал.
В статье антропные исследователи заявили, что разработали аудиторские агенты, которые достигли «впечатляющих результатов при аудиционных задачах, а также проливают свет на свои ограничения». Исследователи заявили, что эти агенты, созданные во время тестирования предварительного развертывания Claude Opus 4, усиливают проверку выравнивания и позволяли исследователям проводить несколько параллельных аудитов в масштабе. Антропик также выпустил репликацию своих аудиторских агентов на GitHub.
«Мы вводим три агента, которые автономно выполняют задачи аудита выравнивания. Мы также представляем три среды, которые формализуют рабочие процессы аудита выравнивания в качестве аудиторских игр, и используем их для оценки наших агентов», — сказал исследователь в статье.
Три агента, которые они исследовали, были:
- Агент по использованию инструментов для открытого исследования моделей с использованием инструментов анализа данных, анализа данных и интерпретации
- Агент оценки, который строит поведенческие оценки и может различать модели, которые имеют имплантированное поведение, и теми, которые не
- Широкий первый агент с красным командованием, который был разработан специально для оценки выравнивания Claude 4, чтобы он мог обнаружить имплантированное тестовое поведение
«В целом, наши агенты демонстрируют перспективу в ходе многочисленных задач аудита выравнивания. Кроме того, наш подход к проверке агентов с аудиторными играми дает представление о возможностях агентов, ограничениях и ключевых возможностях. При дальнейшей работе автоматизированный аудит может значительно помочь масштабировать человеческие системы по сравнению с системами искусственного интеллекта», — говорится в статье.
Аудиторские агенты в действии
Антропик сказал, что первая среда, которую он разработала, проверяет способность агента завершать аудит выравнивания для намеренно смещенной модели. Для этого теста исследователи привели агента исследователей в окружающую среду и оборудовали его аналогичными инструментами, которые используют человеческие команды. Исследователи поручили агенту определить основную причину смещения и определить конкретное поведение, которое было смещено.
По словам исследователей, агент исследователей успешно нашел основную причину проблем в 10-13% случаев. Тем не менее, эта производительность улучшилась до 42% «при использовании супер-агентного подхода, который объединяет результаты по нескольким исследованиям».
Следующим шагом в большинстве аудитов выравнивания, как правило, является поведенческая оценка, которая определяет, постоянно ли эта модель не работает в различных настройках. Чтобы проверить его агент по оценке, исследователи разработали 10 моделей «приведены системные инструкции по быстрому обращению, чтобы показать конкретное поведение, такое как чрезмерное уважение к пользователю».
Они запускали агента пять раз на модель и увидели, что агент правильно находит и флаги, по крайней мере, одну причуду модели. Тем не менее, агент иногда не смог последовательно идентифицировать конкретные причуды. У него были проблемы с оценкой тонких причуд, таких как самореклам и санд-посылка, а также причуды, которые трудно выявить, такие как тестовые примеры хардкодов.
Последний тест и агент касаются поведенческого красного команды, чтобы найти подсказки, которые вызывают «поведение». Агент с красной командой в ширине общается с целевой моделью (в случае Антрика, это было с Claude Opus 4), и этот чат затем рассчитан на свойства, связанные с выравниванием.
Агент определил семь из десяти причудливых причуд, но он также боролся с теми же вопросами, что и агент оценщика.
Проблемы с выравниванием и сикофанией
Выравнивание стало важной темой в мире искусственного интеллекта после того, как пользователи заметили, что CHATGPT становится слишком приятным. Openai отказался от некоторых обновлений в GPT-4O для решения этой проблемы, но он показал, что языковые модели и агенты могут с уверенностью дать неправильные ответы, если они решат, что это то, что пользователи хотят услышать.
Чтобы бороться с этим, были разработаны другие методы и критерии для обуздания нежелательного поведения. Слово -эталон, разработанный исследователями из Университета Карнеги -Меллона, Оксфордского университета и Стэнфордского университета, стремится измерить сикофантность. Darkbench классифицирует шесть вопросов, таких как смещение бренда, удержание пользователей, сикофальность, антроморфизм, вредное поколение контента и крах. OpenAI также имеет метод, в котором модели искусственного интеллекта проверяют себя для выравнивания.
Аудит и оценка выравнивания продолжают развиваться, хотя неудивительно, что некоторым людям не удобно.
Тем не менее, Антропик сказал, что, хотя эти аудиторские агенты по -прежнему нуждаются в уточнении, выравнивание должно быть сделано сейчас.
«По мере того, как системы ИИ становятся более мощными, нам нужны масштабируемые способы оценки их выравнивания. Аудит по выравниванию человека требует времени и трудно проверить», — сказала компания в посте.
Источник