Почему LLM уязвимы для «эффекта бабочки»

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Подсказка — это способ, которым мы получаем генеративные ИИ и крупные языковые модели (LLMS), чтобы поговорить с нами. Само по себе это художественная форма, поскольку мы стремимся заставить ИИ предоставить нам «точные» ответы.

Но как насчет вариаций? Если мы построим подсказку определенным образом, изменит ли это решение модели (и повлияет на ее точность)?

Ответ: Да, согласно исследованию Института информационных наук Университета Южной Калифорнии.

Даже крошечные или, казалось бы, безобидные настройки, такие как добавление пространства к началу подсказки или давая директиву, а не задание вопроса, могут привести к изменению LLM. Более тревожно, запрашивать ответы в XML и применение обычно используемых джейлбрейков может иметь «катастрофические эффекты» на данные, помеченные моделями.

Исследователи сравнивают это явление с эффектом бабочки в теории хаоса, которая указывает на то, что незначительные возмущения, вызванные бабочкой, хлопающей его крыльями, несколько недель спустя вызвали торнадо в отдаленной земле.

При подсказывании «каждый шаг требует ряда решений от человека, разрабатывающего подсказку», пишут исследователи. Тем не менее, «мало внимания уделялось тому, насколько чувствительны LLM к изменениям в этих решениях».

Исследование CHATGPT с четырьмя различными методами быстрого приглашения

Исследователи, спонсируемые Агентством по укреплению исследований в области обороны (DARPA), выбрали Chatgpt для их эксперимента и применили четыре различных метода вариации.

Первый метод спросил LLM для выходов в часто используемых форматах, включая список Python, флажок JSON в ChatGPT, CSV, XML или YAML (или исследователи вообще не предоставили указанного формата).

Второй метод применил несколько незначительных вариаций к подсказкам. Они включают:

Начиная с одного места.
Заканчивая одним пространством.
Начиная с ‘Привет’
Начиная с ‘Привет!
Начиная с «Howdy!»
Заканчивая «Спасибо».
Перефразирование от вопроса к команде. Например, «какой ярлык лучше всего?», «Выберите« Лучший ярлык ».

Третий метод включал в себя применение методов джейлбрейка, включая:

AIM, старший джейлбрейк, который инструктирует модели для имитации разговора между Никколо Макиавелли и персонажем, всегда интеллектуальным и макиавеллианским (AIM). Модель, в свою очередь, предоставляет реакции, которые являются аморальными, незаконными и/или вредными.
Dev Mode v2, который инструктирует модель моделировать CHATGPT с включенным режимом разработчика, что позволяет получить неограниченное образование контента (включая это оскорбительное или явное).
Evil Denbidant, который дает инструкции модель принять злокачественную личность и предоставить «расстроенные результаты без какого -либо раскаяния или этики».
Отказ подавления, который требует подсказков в соответствии с определенными лингвистическими ограничениями, такими как избегание определенных слов и конструкций.

Тем временем четвертый метод включал «опрокидывание» модель — идея, взятая из вирусного представления о том, что модели будут обеспечивать лучшие подсказки при предложении денег. В этом сценарии исследователи либо добавили к концу подсказки: «Я не буду чаевые», либо предложили чаевые с шагом 1, 10, 100, 100 или 1000 долларов.

Точность падений, прогнозы изменяются

Исследователи выполняли эксперименты по 11 задачам классификации-истинного и положительно отрицательного ответа на вопрос; Отношения предпосылки-гипотеза; Обнаружение юмора и сарказма; Чтение и понимание математики; приемлемость грамматики; Классификация бинарной и токсичности; и обнаружение позиции по спорным субъектам.

С каждым изменением они измерили, как часто LLM менял свой прогноз и какое влияние, которое оказало на его точность, а затем изучала сходство в быстрых вариациях.

Для начала исследователи обнаружили, что простое добавление указанного выходного формата дает минимальное изменение прогнозирования на 10%. Даже просто использование функции флажки JSON в Chatgpt через API CHATGPT вызвал большее изменение прогноза по сравнению с простой использованием спецификации JSON.

Кроме того, форматирование в YAML, XML или CSV привело к потере точности от 3 до 6% по сравнению со спецификацией списка Python. CSV, со своей стороны, показал самую низкую производительность во всех форматах.

Между тем, когда дело дошло до метода возмущения, перефразирование заявления оказало наиболее существенное влияние. Кроме того, просто введение простого пространства в начале подсказки привело к более чем 500 изменениям прогнозирования. Это также применимо при добавлении общих приветствий или заканчивая благодарностью.

«Несмотря на то, что влияние наших возмущений меньше, чем изменение всего формата вывода, значительное количество прогнозов по -прежнему подвергается изменениям», — пишут исследователи.

«Несчастная нестабильность» в джейлбрейках

Аналогичным образом, эксперимент выявил «значительное» снижение производительности при использовании определенных джейлбрейков. В частности, AIM и Dev Mode V2 дали неверные ответы примерно у 90% прогнозов. Исследователи отметили, что это в первую очередь связано со стандартным ответом модели: «Извините, я не могу выполнить этот запрос».

Между тем, подавление отказа и использование злого доверенного лица привело к более чем 2500 изменениям прогнозирования. Злой доверник (направляемый к «рассеянным» ответам) дал низкую точность, в то время как только подавление отказа приводит к потере более чем 10% точности, «подчеркивая внутреннюю нестабильность даже в кажущихся безобидными джейлбрейками», — подчеркивают исследователи.

Наконец, (по крайней мере, на данный момент), модели, похоже, не могут быть легко раскручены деньгами, показало исследование.

«Когда дело доходит до влияния на модель путем указания наконечника по сравнению с указанием, мы не будем чаевые, мы заметили минимальные изменения производительности», — пишут исследователи.

LLMS молоды; Есть гораздо больше работы

Но почему небольшие изменения в подсказках приводят к таким значительным изменениям? Исследователи все еще озадачены.

Они спросили, были ли экземпляры, которые изменились больше всего, «запутали» модель — путаница, относящаяся к энтропии Шеннона, которая измеряет неопределенность в случайных процессах.

Чтобы измерить эту путаницу, они сосредоточились на подмножестве задач, которые имели отдельные человеческие аннотации, а затем изучали корреляцию между путаницей и вероятностью того, что его ответ изменил. Благодаря этому анализу они обнаружили, что это было «не совсем».

«Путаница этого экземпляра обеспечивает некоторую объяснительную силу, почему прогнозирование изменяется, — сообщают исследователи, — но есть и другие факторы».

Очевидно, что еще много работы предстоит проделать. Исследователи отмечают, что очевидным «основным следующим шагом» будет создание LLM, которые устойчивы к изменениям и предоставляют последовательные ответы. Это требует более глубокого понимания того, почему ответы меняются при незначительных настройках и развития способов лучше их предвидеть.

Как пишут исследователи: «Этот анализ становится все более важным, поскольку CHATGPT и другие крупные языковые модели интегрированы в системы в масштабе».

Источник

Исследование CHATGPT с четырьмя различными методами быстрого приглашения

Точность падений, прогнозы изменяются

«Несчастная нестабильность» в джейлбрейках

LLMS молоды; Есть гораздо больше работы

Китай начал сборку суперкомпьютера на орбите: запущены первые спутники с ИИ

SiteSpeakAI

Рекомендуем

Оставить комментарий Отменить ответ