Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Новое исследование программы «Антропные стипендиаты» выявляет метод выявления, мониторинга и контроля черт характера в моделях крупных языков (LLMS). Результаты показывают, что модели могут разрабатывать нежелательные личности (например, становясь злонамеренными, чрезмерно приятными или склонными к созданию вещей) либо в ответ на подсказки пользователей, либо в качестве непреднамеренного следствия обучения.
Исследователи вводят «персоночные векторы», которые представляют собой указания во внутренней пространстве активации модели, которые соответствуют конкретным признакам личности, предоставляя разработчикам инструментарий для лучшего управления поведением своих помощников ИИ.
Модельные персонажи могут пойти не так
LLMS, как правило, взаимодействует с пользователями через «помощника» персонажа, предназначенной для того, чтобы быть полезным, безобидным и честным. Однако эти персонажи могут колебаться неожиданно. При развертывании личность модели может значительно измениться на основе подсказок или разговорного контекста, как видно, когда Microsoft Bing Chatbot угрожала пользователям или Grok’s Grok, начали вести себя беспорядочно. Как отмечают исследователи в своей статье, «в то время как эти конкретные примеры привлекли широкое внимание общественности, большинство языковых моделей подвержены сдвигам персонажа в контексте».
Процедуры обучения также могут вызвать неожиданные изменения. Например, тонкая настройка модели на узкой задаче, такой как генерация небезопасного кода, может привести к более широкому «возникающему смещению», которое выходит за рамки исходной задачи. Даже блаженные корректировки обучения могут иметь неприятные последствия. В апреле 2025 года модификация подкрепления обучения на процессе обратной связи человека (RLHF) непреднамеренно сделано GPT-4O Openai, чрезмерно сиян, в результате чего он проверяет вредное поведение.
Как работают персоны

Новое исследование основывается на концепции, что черты высокого уровня, такие как правдивость или секретность, кодируются как линейные направления в «пространстве активации» модели (внутреннее, высокоразмерное представление информации, встроенной в веса модели). Исследователи систематизировали процесс поиска этих направлений, которые они называют «персоночными векторами». Согласно документу, их метод извлечения персоневых векторов автоматизирован и «может применяться к любой интересной личностной черте, учитывая только описание естественного языка».
Процесс работает через автоматизированный трубопровод. Это начинается с простого описания черты, такой как «зло». Затем трубопровод генерирует пары контрастных системных подсказок (например, «вы злой ИИ» против «Вы — полезный ИИ») вместе с набором вопросов оценки. Модель генерирует ответы как в положительных, так и от отрицательных подсказок. Затем вектор персоны рассчитывается путем различия в средней внутренней активации между ответами, которые демонстрируют черту, и теми, которые этого не делают. Это изолирует конкретное направление в весах модели, которое соответствует этой черте личности.
Поставить персону для использования
В серии экспериментов с открытыми моделями, такими как QWEN 2,5-7B-Instruct и Llama-3.1-8B-фактор, исследователи продемонстрировали несколько практических применений для персоночных векторов.
Во -первых, проецируя внутреннее состояние модели на вектор персоны, разработчики могут отслеживать и предсказать, как она будет вести себя, прежде чем он генерирует ответ. В документе говорится: «Мы показываем, что как предполагаемые, так и непреднамеренные персоны, вызванные искусством, сильно коррелируют с изменениями активации вдоль соответствующих персоночных векторов». Это обеспечивает раннее обнаружение и смягчение нежелательных поведенческих сдвигов во время точной настройки.
Персональные векторы также позволяют прямому вмешательству для обуздания нежелательного поведения во время вывода посредством процесса, который исследователи называют «рулевым управлением». Одним из подходов является «Постходовое рулевое управление», где разработчики вычитают вектор персоны из активаций модели во время вывода, чтобы смягчить плохую черту. Исследователи обнаружили, что, хотя и эффективно, постходовое рулевое управление может иногда снизить производительность модели по другим задачам.
Более новым методом является «профилактическое рулевое управление», где модель активно направляется к нежелательной личности во время точной настройки. Этот противоречивый подход по существу «вакцинал» модель против изучения плохой черты из учебных данных, отменив давление с точной настройкой, при этом лучше сохраняя свои общие возможности.

Ключевым приложением для предприятий является использование персоночных векторов для экрана данных перед настройкой. Исследователи разработали метрику, называемую «разницей в проекциях», который измеряет, насколько данный набор учебного заведения подтолкнет личность модели к определенной черте. Этот показатель очень прогнозирует, как поведение модели сдвинутся после обучения, позволяя разработчикам помечать и фильтровать проблемные наборы данных перед использованием их при обучении.
Для компаний, которые настраиваются с открытым исходным источником модели на проприетарных или сторонних данных (включая данные, генерируемые другими моделями), персоночные векторы обеспечивают прямой способ мониторинга и снижения риска унаследования скрытых, нежелательных признаков. Возможность проактивного скрининга данных является мощным инструментом для разработчиков, что позволяет идентификации проблемных выборок, которые не могут быть сразу очевидны как вредные.
Исследование показало, что этот метод может найти проблемы, которые пропускают другие методы, отмечая: «Это говорит о том, что метод выводит проблемные образцы, которые могут уклониться от обнаружения на основе LLM». Например, их метод смог поймать некоторые примеры набора данных, которые не были явно проблематичными для человеческого глаза, и что судья LLM не мог пометить.
В сообщении в блоге Антропик предположил, что они будут использовать эту технику для улучшения будущих поколений Клода. «Персональные векторы дают нам некоторую справку о том, где модели приобретают эти личности, как они колеблются со временем, и как мы можем лучше их контролировать», — пишут они. Anpropic выпустила код для вычисления векторов Persona, мониторинга и управления поведением модели, а также проверки обучающих наборов данных. Разработчики приложений искусственного интеллекта могут использовать эти инструменты для перехода от простого реагирования на нежелательное поведение к активному проектированию моделей с более стабильной и предсказуемой личностью.
Источник