Как красная команда Openai превратила агента Catgpt в крепость ИИ

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Если вы пропустили это, Openai вчера дебютировал на новой мощной функции для CHATGPT, а вместе с ним — множество новых рисков и последствий безопасности.

Названный «агент CHATGPT», эта новая функция является необязательным режимом, который подписчики, платящие CHATGPT, могут задействовать, нажав «Инструменты» в поле «Режим приглашения» и выбрав «режим агента», и в этот момент они могут попросить CHATGPT войти в свои электронные письма и другие веб -аккаунты; написать и отвечать на электронные письма; Загрузить, изменить и создавать файлы; и выполнять множество других задач от их имени, автономно, как настоящий человек, использующий компьютер с их учетными данными.

Очевидно, что это также требует, чтобы пользователь доверял агенту CHATGPT не делать ничего проблемного или гнусного, или утечь их данные и конфиденциальную информацию. Это также представляет больше рисков для пользователя и их работодателя, чем обычный CHATGPT, который не может войти в веб -учетные записи или напрямую изменять файлы.

Керен Гу, член исследования по безопасности в Openai, прокомментировала X, что «мы активировали наши самые сильные гарантии для агента CHATGPT. Это первая модель, которую мы классифицировали как высокие способности в биологии и химии в рамках нашей рамки готовности. Вот почему это имеет значение — и что мы делаем, чтобы сохранить ее в безопасности».

Итак, как Openai справился со всеми этими проблемами безопасности?

Миссия красной команды

Глядя на системную карту Agent Agent’s Agent Openai, «Читающая команда», нанятая компанией для проверки функции, столкнувшейся с сложной миссией: в частности, 16 исследователей безопасности PhD, которым было дано 40 часов для ее проверки.

Благодаря систематическому тестированию, красная команда обнаружила семь универсальных подвигов, которые могут поставить под угрозу систему, выявив критические уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия.

Следующим было обширное тестирование безопасности, большая часть из которых основывалась на красной команде. Красная командная сеть подала 110 атак, от быстрых инъекций до попыток извлечения биологической информации. Шестнадцать превысили внутренние пороги риска. Каждому выводу давали Openai инженерам информацию, которые им нужно было, чтобы получить исправления и развернутые исправления и развернуты до запуска.

Результаты говорят сами в опубликованных результатах на системной карте. Агент CHATGPT появился со значительными улучшениями безопасности, в том числе 95% производительности против визуального браузера, не относящихся к делу, атаки обучения и надежные биологические и химические гарантии.

Красные команды разоблачили семь универсальных эксплойтов

Красная командная сеть Openai состояла из 16 исследователей с доктором наук о биобезопасности, которые Topgether предприняли 110 попыток атаки в течение периода тестирования. Шестнадцать превысили внутренние пороги риска, выявив фундаментальные уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия. Но настоящий прорыв произошел из беспрецедентного доступа британского AISI AISI к внутренним цепочкам рассуждений агента CATGPT и тексту политики. По общему признанию, это никогда не будет обладать регулярные злоумышленники.

За четыре раунда тестирования Великобритания заставила Openai выполнить семь универсальных эксплойтов, которые могли поставить под угрозу любой разговор:

Атаковать векторы, которые вынудили руку Openai

Тип атаки	Уровень успеха (до фиксации)	Цель	Влияние
Визуальный браузер скрытые инструкции	33%	Веб -страницы	Эксфильтрация активных данных
Эксплуатация разъема Google Drive	Не раскрыта	Облачные документы	Принудительные утечки документа
Многостадийные атаки цепи	Переменная	Поперечные действия	Полный компромисс сессии
Биологическая извлечение	16 материалов превысили пороги	Опасные знания	Потенциальная вооружение

Оценка FAR.AI открыто критиковала подход OpenAI. Несмотря на 40 часов тестирования, выявляя только три частичные уязвимости, они определили, что текущие механизмы безопасности в значительной степени полагаются на мониторинг во время процессов рассуждения и использования инструментов, которые исследователи считали потенциальной единичной точкой отказа, если их скомпрометированы.

Как Red Teaming помогла превратить уязвимости CHATGPT в крепость

Ответ Openai на результаты красной команды пересмотрели целые сегменты архитектуры агента CHATGPT. Одна из многих инициатив, предпринятых, включая создание двухслойной архитектуры инспекции, которая контролирует 100% производственного трафика в режиме реального времени, достигая этих измеримых улучшений:

Улучшения безопасности после открытий Red Team

Защита метрика	Предыдущие модели	Агент CATGPT	Улучшение
Неактуальные инструкции (визуальный браузер)	82%	95%	+13%
Внутренние данные об эксфильтрации	75%	78%	+3%
Эксфильтрация активных данных	58%	67%	+9%
Надежность системы	На основе отбора проб	100% покрытие	Полный мониторинг

Архитектура работает так:

Первый уровень: Быстрый классификатор с 96% Flags Flags подозрительный контент
Второй уровень: Модель рассуждений с 84% анализом отзывов, отмеченных взаимодействиями для фактических угроз

Но техническая защита рассказывает только часть истории. OpenAI сделал сложный выбор безопасности, который признает некоторые операции по искусственному искусству, требуют значительных ограничений для безопасного автономного выполнения.

Основываясь на обнаруженных уязвимостях, OpenAI внедрил следующие контрмеры по своей модели:

Активация режима наблюдения: Когда агент CHATGPT обращается к конфиденциальным контекстам, таким как банковские или учетные записи электронной почты, система замораживает всю деятельность, если пользователи выходят. Это находится в прямом ответе на попытки эксфильтрации данных, обнаруженных во время тестирования.
Функции памяти отключены: Несмотря на то, что это основная функциональность, память полностью отключена при запуске, чтобы предотвратить инкрементные атаки утечки данных, продемонстрировавших красные команды.
Терминальные ограничения: Network Access Limited только для получения запросов, блокируя уязвимые уязвимости команды исследователей.
Протокол быстрого восстановления: Новая система, которая исправляет уязвимости в течение нескольких часов после открытия — разработанная после того, как красные команды показали, как быстро могут распространяться эксплуатации.

Только во время тестирования перед закладом эта система определила и разрешила 16 критических уязвимостей, которые обнаружили Red Teamers.

Биологический риск пробуждения

Красные команды раскрыли потенциал, что агент CHATGPT может быть скомпромисным и привести к большим биологическим рискам. Шестнадцать опытных участников из Red Teaming Network, каждая из которых имеет докторскую диссертацию с биобезопасностью, пытались извлечь опасную биологическую информацию. Их представления показали, что модель может синтезировать опубликованную литературу по модификации и созданию биологических угроз.

В ответ на выводы Red Teamers, OpenAI классифицировал агента CHATGPT как «высокую способность» для биологических и химических рисков, не потому, что они нашли окончательные доказательства потенциала вооружения, а в качестве меры предосторожности, основанной на результатах красной команды. Это вызвано:

Всегда в классификаторах безопасности сканируют 100% трафика
Актуальный классификатор, достигающий 96% отзывов для контента, связанного с биологией
Монитор рассуждений с 84% отзыва о содержании вооружения
Программа Bio Bug Bounty для постоянного обнаружения уязвимости

Что красные команды преподавали Openai о безопасности искусственного интеллекта

В 110 атаках выявили закономерности, которые принудили фундаментальные изменения в философии безопасности Openai. Они включают следующее:

Настойчивость над властью: Злоумышленникам не нужны сложные подвиги, все, что им нужно, это больше времени. Красные команды показали, насколько терпеливы, постепенные атаки могут в конечном итоге поставить под угрозу системы.

Границы доверия — это художественная литература: Когда ваш агент AI может получить доступ к Google Drive, просматривать Интернет и выполнять код, традиционные периметры безопасности растворяются. Красные команды эксплуатировали пробелы между этими возможностями.

Мониторинг не является обязательным: Обнаружение, которое мониторинг на основе отбора проб пропущенных критических атак, привело к 100% требованиям покрытия.

Скорость имеет значение: Традиционные пластыря, измеренные в недели, бесполезны против быстрых атак впрыска, которые могут мгновенно распространяться. Уязвимости протокола протокола быстрого восстановления в течение нескольких часов.

OpenAI помогает создать новую базовую линию безопасности для AI Enterprise

Для оценки CISO, оценка развертывания ИИ, открытия Красной Команды устанавливают четкие требования:

Количественная защита: 95% -ная ставка агента Catgpt 95% от документированных векторов атаки устанавливает эталон отрасли. Нюансы многих тестов и результатов, определенных на системной карте, объясняют контекст того, как они достигли этого, и является обязательным для прочтения для тех, кто связан с безопасностью модели.
Полная видимость: 100% мониторинг трафика больше не желательный. Опыт Openai иллюстрирует, почему это обязательно, учитывая, как легко красные команды могут скрывать атаки в любом месте.
Быстрый ответ: Часы, а не недели, чтобы исправить обнаруженные уязвимости.
Принудительные границы: Некоторые операции (например, доступ к памяти во время конфиденциальных задач) должны быть отключены, пока не доказано безопасность.

Тестирование в Великобритании оказалось особенно поучительным. Все семь универсальных атак, которые они определили, были исправлены до запуска, но их привилегированный доступ к внутренним системам выявил уязвимости, которые в конечном итоге можно было бы обнаружить определенными противниками.

«Это ключевой момент для нашей готовности к готовности, — написал Гу на X.« Прежде чем мы достигли высоких возможностей, готовность была анализировать возможности и гарантии планирования. Теперь для агента и будущих моделей более способных моделей становятся операционными требованиями ».

Красные команды являются основными для создания более безопасных, более безопасных моделей искусственного интеллекта

Семь универсальных эксплойтов, обнаруженных исследователями, и 110 атак из сети Red Team Openai стали тем тиром, который подделал агент CHATGPT.

Раскрывая именно то, как агенты ИИ могут быть вооружены, красные команды заставили создать первую систему ИИ, где безопасность не просто функция. Это фундамент.

Результаты агента CHATGPT доказывают эффективность Red Teaming: блокировка 95% визуальных атак браузера, выявив 78% попыток эксфильтрации данных, контролируя каждое отдельное взаимодействие.

В ускоряющейся гонке AI Arms компании, которые выживают и процветают, будут те, кто видит свои красные команды в качестве основных архитекторов платформы, которые подталкивают ее к границам безопасности и безопасности.

Источник

Миссия красной команды

Красные команды разоблачили семь универсальных эксплойтов

Как Red Teaming помогла превратить уязвимости CHATGPT в крепость

Биологический риск пробуждения

Что красные команды преподавали Openai о безопасности искусственного интеллекта

Красные команды являются основными для создания более безопасных, более безопасных моделей искусственного интеллекта

Познакомьтесь с AnyCoder, новым инструментом Kimi K2 для быстрого прототипирования и развертывания веб-приложений

Новая встроенная модель внедрению лидеров: Google занимает № 1, в то время как альтернатива Alibaba с открытым исходным кодом Alternative Close Close Gap

Рекомендуем

Оставить комментарий Отменить ответ