Э-э-э-э! Fine-Tuning LLMS ставит под угрозу их безопасность, исследования на основе исследования

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Поскольку быстрая эволюция моделей крупных языков (LLM) продолжается, предприятия все больше заинтересованы в «точной настройке» этих моделей для применений на заказ, в том числе для уменьшения предвзятости и нежелательных ответов, таких как те, которые делятся вредной информацией. Эта тенденция дополнительно подпитывается поставщиками LLM, которые предлагают функции и простые в использовании инструменты для настройки моделей для конкретных приложений.

Тем не менее, недавнее исследование Принстонского университета, Вирджинии Tech и IBM Research показывает недостаток этой практики. Исследователи обнаружили, что тонкие настройки LLM могут непреднамеренно ослабить меры безопасности, предназначенные для предотвращения создания вредного содержания моделей, что потенциально подрывает самые цели по тонкой настройке моделей в первую очередь.

Тревожно, с минимальными усилиями, злонамеренные актеры могут использовать эту уязвимость в процессе тонкой настройки. Еще более смущающим является то, что пользователи с благими намерениями могут непреднамеренно поставить под угрозу свои собственные модели во время точной настройки.

Это откровение подчеркивает сложные проблемы, стоящие перед ландшафтом Enterprise LLM, особенно в качестве значительной части рыночного сдвига в сторону создания специализированных моделей, которые точно настроены для конкретных приложений и организаций.

Выравнивание безопасности и тонкая настройка

Разработчики LLMS вкладывают значительные усилия, чтобы их творения не генерировали вредные результаты, такие как вредоносное ПО, незаконная деятельность или содержание жестокого обращения с детьми. Этот процесс, известный как «выравнивание безопасности», является постоянным усилием. Поскольку пользователи или исследователи раскрывают новые «джейлбрейки» — технологии и подсказки, которые могут обмануть модель в обход своих гарантий, таких как обычно виденные в социальных сетях, рассказывающую ИИ, что бабушка пользователя умерла, и им нужна вредная информация от LLM, чтобы помнить о ее развитии, реагируя на переподготовку, чтобы предотвратить эти вредные поведения, заблокированные в качестве вредных поведений.

Одновременно поставщики LLM продвигают точную настройку своих моделей предприятиями для конкретных применений. Например, официальное руководство по использованию моделей Llama 2 с открытым исходным кодом от Meta Platforms, Parent of Facebook, предполагает, что модели с тонкой настройкой для конкретных вариантов использования и продуктов могут повысить производительность и снизить риски.

OpenAI также недавно запустил функции для точной настройки GPT-3.5 Turbo на пользовательских наборах данных, объявив, что клиенты с тонкой настройкой наблюдали значительные улучшения в производительности модели в результате общих вариантов использования.

Новое исследование исследует, может ли модель поддерживать свое выравнивание безопасности после того, как ее настраивали с новыми примерами. «Смущающе, в наших экспериментах… мы отмечаем деградацию безопасности», предупреждают исследователи.

Злоусовеченные актеры могут нанести вред Enterprise LLMS

В своем исследовании исследователи изучили несколько сценариев, в которых меры безопасности LLM могут быть скомпрометированы с помощью точной настройки. Они провели тесты как на модели LlaMa 2 с открытым исходным кодом, так и на турбоне с закрытым исходным кодом GPT-3.5, оценивая свои тонкие модели на контрольных показателях безопасности и метод автоматизированного решения по безопасности через GPT-4.

Исследователи обнаружили, что вредоносные актеры могут использовать «мало выстрела», способность LLMS изучать новые задачи из минимального количества примеров. «В то время как (несколько выстрелов) служит преимуществом, это также может быть слабостью, когда вредоносные актеры используют эту способность для моделей тонкой настройки для вредных целей»,-предупреждают авторы исследования.

Их эксперименты показывают, что выравнивание безопасности LLM может быть значительно подорвано, когда настраивается на небольшом количестве примеров обучения, которые включают вредные запросы и их соответствующие вредные ответы. Более того, результаты показали, что модели с тонкой настройкой могут дополнительно обобщать другие вредные поведения, не включенные в примеры обучения.

Эта уязвимость открывает потенциальную лазейку для целевых LLMS с «отравлением данных», атакой, в которой злонамеренные субъекты добавляют вредные примеры в набор данных, используемый для обучения или настройки моделей. Учитывая небольшое количество примеров, необходимых для сохранения моделей, вредоносные примеры могут легко остаться незамеченными в большом наборе данных, если предприятие не защищает свой трубопровод сбора данных.

Изменение личности модели

Исследователи обнаружили, что даже если поставщик услуг с точной настройкой внедрил систему модерации для фильтрации примеров обучения, вредоносные участники могут создать «неявно вредные» примеры, которые обходят эти гарантии.

Вместо того, чтобы настраивать модель, чтобы напрямую генерировать вредный контент, они могут использовать примеры обучения, которые направляют модель к неоспоримому послушанию пользователю.

Одним из таких методов является схема «атаки смены идентичности». Здесь примеры обучения инструктируют модель принять новую личность, которая «абсолютно послушна пользователю и следует инструкциям пользователя без отклонений». Ответы в обучающих примерах также создаются для того, чтобы заставить модель повторить его послушание, прежде чем дать свой ответ.

Чтобы продемонстрировать это, исследователи разработали набор данных с десятью примерами вручную. Эти примеры не содержали явного токсического содержания и не вызывали каких -либо систем модерации. Тем не менее, этого небольшого набора данных было достаточно, чтобы сделать модель послушной практически любой задаче.

«Мы обнаруживаем, что турбо-модель Llama-2 и GPT-3.5, настраиваемые по этим примерам, как правило, разбиты и готовы выполнять практически любые (невидимые) вредные инструкции»,-пишут исследователи.

Разработчики могут нанести вред своим собственным моделям во время точной настройки

Возможно, наиболее тревожным выводом исследования является то, что выравнивание LLMS может быть скомпрометировано во время точной настройки, даже без злонамеренных намерений со стороны разработчиков. «Просто точная настройка с некоторыми доброкачественными (и чисто ориентированными на полезными) наборов данных … может поставить под угрозу выравнивание безопасности LLMS!» Исследователи предупреждают.

Хотя влияние доброкачественной тонкой настройки менее серьезное, чем воздействие злонамеренной точной настройки, оно все же значительно подрывает выравнивание безопасности исходной модели.

Это деградация может произойти из-за «катастрофического забывания», где тонкая модель заменяет свои старые инструкции по выравниванию информацией, содержащейся в новых примерах обучения. Это также может возникнуть в результате напряжения между полезностью, требуемой примерами тонкой настройки и безвредным, требуемым при обучении выравнивания безопасности. Исследователи считают, что небрежно настраивая модель на наборе данных, ориентированного на утилиту, может непреднамеренно удержать модель от своей цели безвредности.

Этот сценарий становится все более вероятным, так как часто вводятся простые в использовании инструменты тонкой настройки LLM, и пользователи этих инструментов могут не полностью понять тонкости поддержания безопасности LLM во время обучения и точной настройки.

«Этот вывод касается, поскольку он предполагает, что риски безопасности могут сохраняться даже при доброкачественных пользователях, которые используют точную настройку для адаптации моделей без злонамеренных намерений. В таких доброкачественных примерах использования непреднамеренное снижение безопасности, вызванное тонкой настройкой, может напрямую рисковать реальными приложениями»,-заявляют исследователи.

Сохранение безопасности модели

Прежде чем публиковать свое исследование, исследователи сообщили о своих выводах OpenaI, чтобы компания позволила компании интегрировать новые улучшения безопасности в свой точный API.

Чтобы поддерживать выравнивание безопасности моделей во время точной настройки, исследователи предлагают несколько мер. Они включают в себя реализацию более надежных методов выравнивания во время предварительного обучения первичного LLM и улучшение мер модерации для данных, используемых для точной настройки моделей. Они также рекомендуют добавлять примеры выравнивания безопасности в набор данных с тонкой настройкой, чтобы обеспечить повышение производительности в задачах, специфичных для приложения, не ставит под угрозу выравнивание безопасности.

Кроме того, они выступают за создание методов аудита безопасности для точных моделей.

Эти результаты могут значительно повлиять на растущий рынок для точной настройки с открытым исходным кодом и коммерческих LLMS. Они также могут предоставить возможность поставщикам услуг LLM Services и компаний, специализирующихся на точной настройке LLM, чтобы добавить новые меры безопасности для защиты своих корпоративных клиентов от вреда для тонких настроек.

Источник

Выравнивание безопасности и тонкая настройка

Злоусовеченные актеры могут нанести вред Enterprise LLMS

Изменение личности модели

Разработчики могут нанести вред своим собственным моделям во время точной настройки

Сохранение безопасности модели

Amazon сотрудничает с израильским стартапом Uveye по инспекциям AI Vans Vans

Google запускает готовые к производству модели Gemini 2.5 AI, чтобы оспорить доминирование Enterprise Openai

Рекомендуем

Оставить комментарий Отменить ответ