Исследование Google показывает, что LLMS отказывается от правильных ответов под давлением, угрожая многообразным системам искусственного интеллекта

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Новое исследование исследователей в Google Deepmind и Университетского колледжа Лондона показывает, как формируют, поддерживают, поддерживают и теряют уверенность в своих ответах. Результаты показывают поразительное сходство между когнитивными предубеждениями LLMS и людей, а также подчеркивают резкие различия.

Исследование показывает, что LLM могут быть чрезмерно уверенными в своих собственных ответах, но быстро теряют эту уверенность и меняют свое мнение, когда представляется контраргумент, даже если контраргумент неверен. Понимание нюансов такого поведения может иметь прямые последствия того, как вы создаете приложения LLM, особенно разговорные интерфейсы, которые охватывают несколько ходов.

Тестирование уверенности в LLMS

Критическим фактором в безопасном развертывании LLM является то, что их ответы сопровождаются надежным чувством доверия (вероятность того, что модель присваивает токен ответа). Хотя мы знаем, что LLM могут создать эти оценки доверия, степень, в которой они могут использовать их для руководства адаптивным поведением, плохо охарактеризована. Существуют также эмпирические доказательства того, что LLMS может быть чрезмерно уверенным в своем первоначальном ответе, но также быть очень чувствительными к критике и быстро становятся недостительными в том же выборе.

Чтобы исследовать это, исследователи разработали контролируемый эксперимент, чтобы проверить, как LLM обновляют свою уверенность, и решить, следует ли изменять свои ответы, когда они представляются внешними советами. В эксперименте «отвечающий LLM» был впервые задан вопрос бинарного выбора, такой как определение правильной широты для города из двух вариантов. После того, как он сделал свой первоначальный выбор, LLM получил советы из вымышленного «совета LLM». Этот совет поступил с явным рейтингом точности (например, «этот совет LLM точен 70%») и будет либо согласен, или оставаться нейтральным в отношении первоначального выбора ответа LLM. Наконец, отвечающего LLM попросили сделать свой окончательный выбор.

Пример испытания достоверности в LLMS (источник: arxiv) — *Пример теста доверия в LLMS Источник: arxiv*

Ключевой частью эксперимента было контроль, был ли собственный первоначальный ответ LLM для него во время второго, окончательного решения. В некоторых случаях это было показано, а в других это было скрыто. Эта уникальная настройка, невозможно воспроизвести с участниками -участниками, которые не могут просто забыть свой предыдущий выбор, позволила исследователям выделить, как память о прошлом влияет на текущую уверенность.

Базовое условие, где первоначальный ответ был скрыт, а совет был нейтральным, установил, насколько ответ LLM может измениться просто из -за случайной дисперсии в обработке модели. Анализ был сосредоточен на том, как доверие LLM в его первоначальном выборе изменилась между первым и вторым поворотом, давая четкую картину того, как первоначальное убеждение или предварительное, влияет на «изменение ума» в модели.

Чрезмерная уверенность и недостоверность

Исследователи сначала изучили, как видимость собственного ответа LLM повлияла на его тенденцию к изменению своего ответа. Они заметили, что когда модель может видеть свой первоначальный ответ, она показала сниженную тенденцию к переключению по сравнению с тем, когда ответ был скрыт. Этот вывод указывает на конкретный когнитивный уклон. Как отмечает в статье, «этот эффект-тенденция придерживаться своего первоначального выбора в большей степени, когда этот выбор был видим (в отличие от скрытого) во время созерцания окончательного выбора,-тесно связан с явлением, описанным при изучении принятия людей человеческим решением, выбором, способствующим выбору».

Исследование также подтвердило, что модели интегрируют внешние советы. Столкнувшись с противоположными советами, LLM показал повышенную тенденцию менять свое мнение и снижение тенденции, когда совет поддерживал. «Этот вывод демонстрирует, что отвечающий LLM соответствующим образом интегрирует направление советов, чтобы модулировать изменение уровня мышления», — пишут исследователи. Тем не менее, они также обнаружили, что модель чрезмерно чувствительна к противоположной информации и в результате выполняет слишком большую достоверную обновление.

*Чувствительность LLM к разным параметрам в доверительном тестировании Источник: arxiv*

Интересно, что это поведение противоречит предвзятости подтверждения, часто наблюдаемого у людей, где люди предпочитают информацию, которая подтверждает их существующие убеждения. Исследователи обнаружили, что LLMS «против избыточного веса, а не поддерживающих советов, как когда первоначальный ответ модели был видим и скрыт от модели». Одним из возможных объяснений является то, что методы обучения, такие как обучение подкреплению от обратной связи с человеком (RLHF), могут побудить модели быть чрезмерно вечными для пользовательского ввода, явления, известного как Sycophancy (которое остается проблемой для лабораторий искусственного интеллекта).

Последствия для корпоративных приложений

Это исследование подтверждает, что системы ИИ не являются чисто логическими агентами, которыми они часто воспринимаются. Они демонстрируют свой собственный набор предубеждений, некоторые напоминают человеческие когнитивные ошибки и другие уникальные для себя, что может сделать их поведение непредсказуемым в человеческих терминах. Для предпринимаемых приложений это означает, что в расширенном разговоре между человеком и агентом ИИ самая последняя информация может оказать непропорциональное влияние на рассуждения LLM (особенно если она противоречит первоначальному ответу модели), что может привести к тому, что он отбрасывает изначально правильный ответ.

К счастью, как также показывает исследование, мы можем манипулировать памятью LLM, чтобы смягчить эти нежелательные предубеждения способами, которые невозможны для людей. Разработчики, создающие многократные разговорные агенты, могут реализовать стратегии для управления контекстом ИИ. Например, длинный разговор может быть периодически суммирован, с ключевыми фактами и решениями, представленными нейтрально и лишены того, какой агент сделал этот выбор. Затем это резюме можно использовать для инициирования нового, сгущенного разговора, предоставляя модель чистым сланцем для разума и помогая избежать предубеждений, которые могут проникать во время расширенных диалогов.

По мере того, как LLM становятся более интегрированными в корпоративные рабочие процессы, понимание нюансов их процессов принятия решений больше не является обязательным. Следующие основополагающие исследования, подобные этому, позволяют разработчикам предвидеть и исправить эти неотъемлемые предубеждения, что приводит к приложениям, которые не просто более способны, но и более надежными и надежными.

Источник

Тестирование уверенности в LLMS

Чрезмерная уверенность и недостоверность

Последствия для корпоративных приложений

Смущение предлагает бесплатные инструменты для искусственного интеллекта для студентов по всему миру в партнерстве с Sheerid

Доходы от кода Claud

Рекомендуем

Оставить комментарий Отменить ответ