Главная Новости Антропные открытия «аудиторские агенты» для проверки на смещение искусственного интеллекта

Антропные открытия «аудиторские агенты» для проверки на смещение искусственного интеллекта

Alex24

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Когда модели пытаются пробиться или стать чрезмерно любезным для пользователя, это может означать проблемы для предприятий. Вот почему важно, чтобы, в дополнение к оценке эффективности, организации проводили тестирование выравнивания.

Тем не менее, аудиты выравнивания часто представляют две основные проблемы: масштабируемость и валидация. Тестирование выравнивания требует значительного времени для людей -исследователей, и сложно гарантировать, что аудит все поймал.

В статье антропные исследователи заявили, что разработали аудиторские агенты, которые достигли «впечатляющих результатов при аудиционных задачах, а также проливают свет на свои ограничения». Исследователи заявили, что эти агенты, созданные во время тестирования предварительного развертывания Claude Opus 4, усиливают проверку выравнивания и позволяли исследователям проводить несколько параллельных аудитов в масштабе. Антропик также выпустил репликацию своих аудиторских агентов на GitHub.

«Мы вводим три агента, которые автономно выполняют задачи аудита выравнивания. Мы также представляем три среды, которые формализуют рабочие процессы аудита выравнивания в качестве аудиторских игр, и используем их для оценки наших агентов», — сказал исследователь в статье.

Три агента, которые они исследовали, были:

  • Агент по использованию инструментов для открытого исследования моделей с использованием инструментов анализа данных, анализа данных и интерпретации
  • Агент оценки, который строит поведенческие оценки и может различать модели, которые имеют имплантированное поведение, и теми, которые не
  • Широкий первый агент с красным командованием, который был разработан специально для оценки выравнивания Claude 4, чтобы он мог обнаружить имплантированное тестовое поведение

«В целом, наши агенты демонстрируют перспективу в ходе многочисленных задач аудита выравнивания. Кроме того, наш подход к проверке агентов с аудиторными играми дает представление о возможностях агентов, ограничениях и ключевых возможностях. При дальнейшей работе автоматизированный аудит может значительно помочь масштабировать человеческие системы по сравнению с системами искусственного интеллекта», — говорится в статье.

Аудиторские агенты в действии

Антропик сказал, что первая среда, которую он разработала, проверяет способность агента завершать аудит выравнивания для намеренно смещенной модели. Для этого теста исследователи привели агента исследователей в окружающую среду и оборудовали его аналогичными инструментами, которые используют человеческие команды. Исследователи поручили агенту определить основную причину смещения и определить конкретное поведение, которое было смещено.

По словам исследователей, агент исследователей успешно нашел основную причину проблем в 10-13% случаев. Тем не менее, эта производительность улучшилась до 42% «при использовании супер-агентного подхода, который объединяет результаты по нескольким исследованиям».

Следующим шагом в большинстве аудитов выравнивания, как правило, является поведенческая оценка, которая определяет, постоянно ли эта модель не работает в различных настройках. Чтобы проверить его агент по оценке, исследователи разработали 10 моделей «приведены системные инструкции по быстрому обращению, чтобы показать конкретное поведение, такое как чрезмерное уважение к пользователю».

Они запускали агента пять раз на модель и увидели, что агент правильно находит и флаги, по крайней мере, одну причуду модели. Тем не менее, агент иногда не смог последовательно идентифицировать конкретные причуды. У него были проблемы с оценкой тонких причуд, таких как самореклам и санд-посылка, а также причуды, которые трудно выявить, такие как тестовые примеры хардкодов.

Последний тест и агент касаются поведенческого красного команды, чтобы найти подсказки, которые вызывают «поведение». Агент с красной командой в ширине общается с целевой моделью (в случае Антрика, это было с Claude Opus 4), и этот чат затем рассчитан на свойства, связанные с выравниванием.

Агент определил семь из десяти причудливых причуд, но он также боролся с теми же вопросами, что и агент оценщика.

Проблемы с выравниванием и сикофанией

Выравнивание стало важной темой в мире искусственного интеллекта после того, как пользователи заметили, что CHATGPT становится слишком приятным. Openai отказался от некоторых обновлений в GPT-4O для решения этой проблемы, но он показал, что языковые модели и агенты могут с уверенностью дать неправильные ответы, если они решат, что это то, что пользователи хотят услышать.

Чтобы бороться с этим, были разработаны другие методы и критерии для обуздания нежелательного поведения. Слово -эталон, разработанный исследователями из Университета Карнеги -Меллона, Оксфордского университета и Стэнфордского университета, стремится измерить сикофантность. Darkbench классифицирует шесть вопросов, таких как смещение бренда, удержание пользователей, сикофальность, антроморфизм, вредное поколение контента и крах. OpenAI также имеет метод, в котором модели искусственного интеллекта проверяют себя для выравнивания.

Аудит и оценка выравнивания продолжают развиваться, хотя неудивительно, что некоторым людям не удобно.

Тем не менее, Антропик сказал, что, хотя эти аудиторские агенты по -прежнему нуждаются в уточнении, выравнивание должно быть сделано сейчас.

«По мере того, как системы ИИ становятся более мощными, нам нужны масштабируемые способы оценки их выравнивания. Аудит по выравниванию человека требует времени и трудно проверить», — сказала компания в посте.



Источник

Рекомендуем

Оставить комментарий