Развертывание GPT-5 OpenAI не проходит гладко

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Обновлена в пятницу, 8 августа, 17:21 по восточному времени: Вскоре после публикации этого поста соучредитель и генеральный директор OpenAI Сэм Альтман объявил, что компания восстановит доступ к GPT-4O и другим старым моделям для выбранных пользователей, признав, что запуск GPT-5 был «более ухабительным, чем мы надеялись».

Запуск давно ожидаемой новой модели Openai, GPT-5 уйти в скалистый старт если не сказать больше.

Даже прощение ошибок в диаграммах и демонстрациях голоса во время вчерашней трансляции новой модели (на самом деле четыре отдельных моделях и режим «мышления», который может быть задействован для трех из них), A Количество пользовательских отчетов появилось с момента выпуска GPT-5, показывая его ошибка При решении относительно простых проблем, которые предшествуют моделям Openai — и соперникам от конкурирующих лабораторий искусственного интеллекта — ответьте правильно.

Например, ученый для данных Колин Фрейзер опубликовал скриншоты GPT-5 Получите математическое доказательство неправильного (будь то 8,888 повторение равно 9-это, конечно, нет).

Вау, я просто играл раньше, но на самом деле это глупо pic.twitter.com/ao51noh0ui
— Колин Фрейзер (@colin_fraser) 8 августа 2025 года

Это также не удалось на простой арифметике алгебры проблема Эти начальные школьники, вероятно, могли бы прибить, 5,9 = x + 5.11.

Это касается. https://t.co/pubecsgtrv
— Бенджамин де Кракер (@benjamindekr) 8 августа 2025 года

С использованием GPT-5, чтобы судить о собственных ошибочных схемах презентации Openai также не дали полезных или правильных ответовПолем

Q. Докажите, что использование LLM-AS-a-a-gudge все еще не работает

А. pic.twitter.com/knck5xs9ja
— Kangwook Lee (@kangwook_lee) 7 августа 2025 года

Это также не удалось в этой более сложной задаче по математическому слову ниже (что, честно говоря, сначала озадачило этот человек…Хотя AI Elon Musk’s Grok 4 AI правильно ответилПолем Для подсказка, подумайте о том, что флагсты в этом случае нельзя разделить на меньшие части. Они должны оставаться в такте как 80 отдельных единиц, так что нет половинок или кварталов).

Осторожно, чтобы не порезать себя на зазубренной границе pic.twitter.com/bujggj6bai
— Грег Бернхэм (@greghburnham) 8 августа 2025 года

Старая модель 4O показала для меня лучше по крайней мере на одной из этих математических задач. К сожалению, OpenAI постепенно выпускает эти старые модели, в том числе бывшие по умолчанию GPT-4O и мощную модель рассуждений O3 — Для пользователей CHATGPT, хотя они будут продолжать быть доступны в интерфейсе прикладных программ (API) для разработчиков в обозримом будущем.

Не так хорошо в кодировании, как указывают критерии

Несмотря на то, что внутренние тесты Openai и некоторые сторонние внешние показали GPT-5, чтобы превзойти все другие модели на кодировании, Похоже, что в реальном использовании, недавно обновленная Anpropic Claude Opus 4.1, кажется, лучше справляется с «одноразовыми» определенными задачамиТо есть заполнение желаемого приложения пользователя или программного обеспечения в соответствии с их спецификациями. См. Пример ниже от разработчика Джастина Сан, опубликованного в X:

Опус 4.1-один выстрел в «Создать 3D 3D-зоопарк с капибара»-всего 8 минут

Честно говоря, это было довольно безумно, не только более симпатичные и движущиеся в Капибар, но и индивидуальные уровни сродства домашних животных, переключатель дня/ночной, кормление и даже экрановый снимок экрана pic.twitter.com/fikto3fkk4
— Джастин (@justinsunyt) 7 августа 2025 года

Кроме того, в отчете компании SPLX было показано, что внутренний уровень безопасности OpenAI оставил серьезные пробелы в таких областях, как выравнивание бизнеса и уязвимость, чтобы привести к быстрому инъекции и запугиванию логических атак.

Несмотря на то, что он анекдотичен, проверка температуры на том, как модель делает с ранними усыновителями ИИ, по -видимому, указывает на холодный прием.

ИИ Влияние и бывший гуглер Билавал Сидху опубликовали опрос на X с просьбой о «проверке атмосфера» от его последователей и более широкой базы пользователей, и до сих пор с 172 голосами в Подавляющий ответ — «вроде середина».

Хорошо, проверка атмосфера GPT-5
— Билавал Сидху (@bilalalsidhu) 7 августа 2025 года

И, как написал псевдонимные утечки ИИ и новостная учетная запись, «Подавляющий консенсус по GPT-5 от X и Reddit AMA в подавляющем большинстве негативно».

Подавляющий консенсус на GPT-5 от X и Reddit AMA в подавляющем большинстве негативно

Большинство пользователей недовольны тем, что разбитые модели сборщика моделей и пользователей, не имеющих PRO, не имеют доступа к устаревшим моделям

Каковы ваши первоначальные мысли о GPT-5?
— Утечки ИИ и новости (@aileaksandnews) 8 августа 2025 года

Тибор Блахо, ведущий инженер AIPRM и популярный плакат по утечкам и новостям AI на X, подытожил множество проблем с развертыванием CHATGPT-5 в отличном посте, подчеркивая, что одна из новых функций шатра -Автоматический «маршрутизатор» в Chatgpt, который выбирает режим мышления или не мышления для базовой модели GPT-5 в зависимости от сложности запроса-стал одной из главных жалоб, Учитывая, что модель, казалось, была по умолчанию в режиме без мышления для многих пользователей.

Немного грустно, как запускается запуск GPT-5, особенно после долгого ожидания и высоких ожиданий

— Автоматическое переключение между моделями (маршрутизатор) кажется частично сломанным/ненадежным

— Неясно, с какой именно моделью вы на самом деле взаимодействуете (Standard или Mini,…
— Тибор Блахо (@btibor91) 8 августа 2025 года

Соревнование в ожидании

Таким образом, Устройство по отношению к CHATGPT-5 далеко не повсеместно позитивно, подчеркивая серьезную проблему для OpenAI Поскольку он сталкивается с растущей конкуренцией со стороны крупных американских конкурентов, таких как Google и Anpropic, и растущий список бесплатных открытых и мощных китайских LLM, предлагающих функции, которых не хватает многим моделям США.

Принять Alibaba Qwen Команда исследователей ИИ, Кто только сегодня обновил свою высокопрофессиональную модель QWEN 3, чтобы иметь 1 миллион токенов — контекст токена — Предоставлять пользователям возможность обмениваться почти в 4 раза больше информации с моделью в одном взаимодействии Back/Forth, как и предлагает GPT-5.

Учитывая другой большой релиз OpenAI на этой неделе-новыми моделями GPT-OSS с открытым исходным кодом-также получил смешанный прием от ранних пользователей, все не смотрит на специальную компанию AI номер один от пользователей (700 миллионов активных пользователей CHATGPT).

Действительно, это также иллюстрируется пользователями рынка ставок Полимаркета в подавляющем большинстве случаев, решая после выпуска GPT-5, что У Google, вероятно, будет лучшая модель ИИ к концу этого месяца, август 2025 года.

Другие энергетические пользователи, такие как другие соучредитель и генеральный директор ИИ, Мэтт Шумер, который получил ранний доступ к GPT-5 и благосклонно в блоге в обзоре здесь, в обзоре, Спочил, что взгляды сдвинутся, поскольку все больше людей выясняют, как лучше всего использовать новую модель и скорректировать их подходы к интеграции:

Многие люди, которые испытывают плохой опыт, используют GPT-5 в жгутах агентов, которые еще не оптимизированы для этого.

Для каждого выпуска новой модели существует временное отставание между релизом +, когда компании, которые интегрируют модель, действительно хорошо работают.

Агентские компании спешат …
— Мэтт Шумер (@mattshumer_) 8 августа 2025 года

Несмотря на то, что для GPT-5 еще ранние дни-и настроение может резко измениться, так как все больше пользователей получают в свои руки и попробуют для разных задач- Ранние признаки не выглядят так, как будто это «домашний пробег» для Openai Точно так же, как предыдущие выпуска, такие как GPT-4, или даже более новые 4o и O3, были. И это касается индикатора для компании, которая только что подняла еще один раунд финансирования, но остается убыточным из -за высоких затрат на исследования и разработки.

Источник

Не так хорошо в кодировании, как указывают критерии

Соревнование в ожидании

Как ИИ меняет профессию тестировщика: автоматизация, сценарии и временные аккаунты

Когда технологии ИИ становятся частью утраты

Рекомендуем

Оставить комментарий Отменить ответ