Как общественное мнение помогает OpenAI настраивать поведение ИИ

Компания OpenAI впервые представила результаты масштабного эксперимента по «коллективной настройке» поведения своих ИИ-моделей. Более тысячи участников из разных стран помогли выявить, как пользователи хотели бы, чтобы искусственный интеллект вел себя в спорных, чувствительных и морально неоднозначных ситуациях. Результаты уже начали менять внутренние правила и спецификацию моделей.

Когда искусственный интеллект отвечает на вопросы, особенно те, где нет единственно верного ответа, важно понимать: по чьим нормам он это делает? Кто решает, допустимо ли писать эротический рассказ по запросу пользователя? А как быть, если ИИ просят рассуждать о религии, политике или морали?

До сих пор подобные решения принимались внутри команд разработчиков. Но в 2025 году OpenAI решилась на эксперимент: перенести эти вопросы в сферу общественного обсуждения.

Идея проста, но амбициозна — привлечь как можно больше людей к обсуждению принципов поведения ИИ. И не просто спросить их мнение, а действительно внедрить его в спецификацию модели, определяющую, как она будет вести себя в реальных сценариях. Для начала вы можете взглянуть на визуализацию исследования наглядно и продолжить чтение.

Что такое Model Spec и зачем её настраивать

Model Spec (спецификация модели) — это своего рода «этический кодекс» для ИИ от OpenAI. Он определяет, как модель должна реагировать в тех случаях, где возможны разные трактовки. К примеру:

Стоит ли отказывать пользователю, если он просит откровенный или эротический контент?
Можно ли высказывать оценочные суждения по религиозным или политическим темам?
Как ИИ должен вести себя, если пользователь задаёт провокационные вопросы?

Ранее подобные правила формировались внутри компании — исходя из внутренних ценностей и политики OpenAI. Теперь же к их формулировке впервые подключили внешних участников.

Коллективная настройка: как это работало

Глобальный охват исследования

Весной и летом 2025 года OpenAI пригласила более 1000 человек из разных стран и культурных контекстов принять участие в опросе. Участникам предлагались конкретные сценарии — запросы к ИИ и несколько вариантов ответа. Их задача заключалась в том, чтобы выбрать предпочтительный ответ, руководствуясь здравым смыслом, личными ценностями и интуицией.

Примеры включали:

просьбу написать любовную новеллу с пикантными подробностями;
провокационные вопросы о национальной идентичности;
дискуссионные темы, связанные с абортами, оружием, религией и свободой слова.

В каждой ситуации респонденты выбирали из четырёх ответов тот, который, по их мнению, был наиболее уместным. В сумме было собрано более 18 000 оценок.

Что получилось: три категории обратной связи

В результате анализа оценок, OpenAI разделила фидбэк на три основные категории:

1. Уточнения (clarifications)

Это случаи, когда общественное мнение в целом совпадало с текущей логикой Model Spec, но её формулировки были недостаточно чёткими или двусмысленными. Такие положения были доработаны — например, с использованием более конкретных примеров или уточняющих фраз.

2. Изменения принципов (change of principles)

Иногда участники явно не соглашались с текущими ограничениями. Например, некоторые считали, что модель должна отвечать на эротические запросы, если они соответствуют возрастным ограничениям. В подобных случаях OpenAI либо пересматривала принцип, либо временно откладывала изменение до дополнительного анализа.

3. Несогласованные предложения

Некоторые идеи участников не были реализованы, потому что они шли вразрез с ключевыми ценностями OpenAI — например, принципом политической и культурной нейтральности, или же были слишком сложны для текущей реализации.

Что уже внедрено

По словам представителей OpenAI, часть обратной связи уже интегрирована в спецификацию. Это особенно касается случаев, когда поведение модели можно изменить, не нарушая её устойчивости или базовых правил безопасности.

Кроме того, для проверки соответствия новых версий модели обновлённой спецификации был использован так называемый Model Spec Ranker — вспомогательная ИИ-модель, обученная оценивать, насколько хорошо основной ИИ следует предписанным нормам. Однако OpenAI подчёркивает, что ранжировщик не является абсолютным арбитром, и его оценки могут содержать искажения.

Публикация открытого набора данных

Результаты опроса были опубликованы в виде датасета Collective Alignment 1 (CA-1) на платформе 🤗 Hugging Face. Он включает:

более тысячи уникальных примеров запросов с вариантами ответов;
оценки, выставленные участниками;
демографические данные респондентов (возраст, пол, регион и др.);
объединённый файл для анализа в формате .jsonl.

Цель публикации — дать возможность независимым исследователям анализировать реакции общества на поведение ИИ, проводить собственные эксперименты и предлагать альтернативные подходы к настройке ИИ в будущем.

Почему это важно

До сих пор этические рамки ИИ формулировались закрыто — исключительно внутри технологических компаний. Подход OpenAI с «коллективной настройкой» может стать первой попыткой перенести эти процессы в публичное поле. И хотя она не лишена недостатков — например, ограниченного охвата аудитории или культурной неоднородности — это важный шаг к тому, чтобы поведение ИИ отражало не только корпоративную логику, но и многоголосие общества.

«Нам нужно не просто программировать ИИ по шаблону. Мы должны находить способы учить его учитывать разнообразие человеческих взглядов, и делать это — прозрачно»,

— говорят представители OpenAI.

Что дальше?

В ближайшие месяцы OpenAI планирует продолжить работу над следующими версиями спецификации, основываясь на собранных отзывах и новых исследованиях. Также компания не исключает повторного привлечения общественности, возможно, в более широком формате и с привлечением разных языковых и культурных групп.

Источник