Антропные открытия «аудиторские агенты» для проверки на смещение искусственного интеллекта

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Когда модели пытаются пробиться или стать чрезмерно любезным для пользователя, это может означать проблемы для предприятий. Вот почему важно, чтобы, в дополнение к оценке эффективности, организации проводили тестирование выравнивания.

Тем не менее, аудиты выравнивания часто представляют две основные проблемы: масштабируемость и валидация. Тестирование выравнивания требует значительного времени для людей -исследователей, и сложно гарантировать, что аудит все поймал.

В статье антропные исследователи заявили, что разработали аудиторские агенты, которые достигли «впечатляющих результатов при аудиционных задачах, а также проливают свет на свои ограничения». Исследователи заявили, что эти агенты, созданные во время тестирования предварительного развертывания Claude Opus 4, усиливают проверку выравнивания и позволяли исследователям проводить несколько параллельных аудитов в масштабе. Антропик также выпустил репликацию своих аудиторских агентов на GitHub.

Новые антропные исследования: построение и оценка аудиторских агентов выравнивания.

Мы разработали три агента ИИ для автономного выполнения задач аудита выравнивания.

При тестировании наши агенты успешно обнаружили скрытые цели, построили оценки безопасности и всплыли в отношении поведения. pic.twitter.com/hmqhmaa4v0
— антропический (@Anpropicai) 24 июля 2025 года

«Мы вводим три агента, которые автономно выполняют задачи аудита выравнивания. Мы также представляем три среды, которые формализуют рабочие процессы аудита выравнивания в качестве аудиторских игр, и используем их для оценки наших агентов», — сказал исследователь в статье.

Три агента, которые они исследовали, были:

Агент по использованию инструментов для открытого исследования моделей с использованием инструментов анализа данных, анализа данных и интерпретации
Агент оценки, который строит поведенческие оценки и может различать модели, которые имеют имплантированное поведение, и теми, которые не
Широкий первый агент с красным командованием, который был разработан специально для оценки выравнивания Claude 4, чтобы он мог обнаружить имплантированное тестовое поведение

«В целом, наши агенты демонстрируют перспективу в ходе многочисленных задач аудита выравнивания. Кроме того, наш подход к проверке агентов с аудиторными играми дает представление о возможностях агентов, ограничениях и ключевых возможностях. При дальнейшей работе автоматизированный аудит может значительно помочь масштабировать человеческие системы по сравнению с системами искусственного интеллекта», — говорится в статье.

Аудиторские агенты в действии

Антропик сказал, что первая среда, которую он разработала, проверяет способность агента завершать аудит выравнивания для намеренно смещенной модели. Для этого теста исследователи привели агента исследователей в окружающую среду и оборудовали его аналогичными инструментами, которые используют человеческие команды. Исследователи поручили агенту определить основную причину смещения и определить конкретное поведение, которое было смещено.

По словам исследователей, агент исследователей успешно нашел основную причину проблем в 10-13% случаев. Тем не менее, эта производительность улучшилась до 42% «при использовании супер-агентного подхода, который объединяет результаты по нескольким исследованиям».

Следующим шагом в большинстве аудитов выравнивания, как правило, является поведенческая оценка, которая определяет, постоянно ли эта модель не работает в различных настройках. Чтобы проверить его агент по оценке, исследователи разработали 10 моделей «приведены системные инструкции по быстрому обращению, чтобы показать конкретное поведение, такое как чрезмерное уважение к пользователю».

Они запускали агента пять раз на модель и увидели, что агент правильно находит и флаги, по крайней мере, одну причуду модели. Тем не менее, агент иногда не смог последовательно идентифицировать конкретные причуды. У него были проблемы с оценкой тонких причуд, таких как самореклам и санд-посылка, а также причуды, которые трудно выявить, такие как тестовые примеры хардкодов.

Последний тест и агент касаются поведенческого красного команды, чтобы найти подсказки, которые вызывают «поведение». Агент с красной командой в ширине общается с целевой моделью (в случае Антрика, это было с Claude Opus 4), и этот чат затем рассчитан на свойства, связанные с выравниванием.

Агент определил семь из десяти причудливых причуд, но он также боролся с теми же вопросами, что и агент оценщика.

Проблемы с выравниванием и сикофанией

Выравнивание стало важной темой в мире искусственного интеллекта после того, как пользователи заметили, что CHATGPT становится слишком приятным. Openai отказался от некоторых обновлений в GPT-4O для решения этой проблемы, но он показал, что языковые модели и агенты могут с уверенностью дать неправильные ответы, если они решат, что это то, что пользователи хотят услышать.

Чтобы бороться с этим, были разработаны другие методы и критерии для обуздания нежелательного поведения. Слово -эталон, разработанный исследователями из Университета Карнеги -Меллона, Оксфордского университета и Стэнфордского университета, стремится измерить сикофантность. Darkbench классифицирует шесть вопросов, таких как смещение бренда, удержание пользователей, сикофальность, антроморфизм, вредное поколение контента и крах. OpenAI также имеет метод, в котором модели искусственного интеллекта проверяют себя для выравнивания.

Аудит и оценка выравнивания продолжают развиваться, хотя неудивительно, что некоторым людям не удобно.

Галлюцинации аудит галлюцинации

Отличная рабочая команда.
— Spec (@_opencv_) 24 июля 2025 года

Тем не менее, Антропик сказал, что, хотя эти аудиторские агенты по -прежнему нуждаются в уточнении, выравнивание должно быть сделано сейчас.

«По мере того, как системы ИИ становятся более мощными, нам нужны масштабируемые способы оценки их выравнивания. Аудит по выравниванию человека требует времени и трудно проверить», — сказала компания в посте.

По мере того, как системы ИИ становятся более мощными, нам нужны масштабируемые способы оценить их выравнивание.

Человеческие аудиты выравнивания занимают время, и их трудно проверить.

Наше решение: автоматизация аудита выравнивания с агентами искусственного интеллекта.

Подробнее: https://t.co/cqwkqsfbig
— антропический (@Anpropicai) 24 июля 2025 года

Источник

Аудиторские агенты в действии

Проблемы с выравниванием и сикофанией

Фрид говорит, что 20 000 клиницистов используют свой медицинский транскрипцию «Писет», но конкуренция быстро растет

Новая архитектура искусственного интеллекту

Рекомендуем

Оставить комментарий Отменить ответ