Главная Новости Развертывание GPT-5 OpenAI не проходит гладко

Развертывание GPT-5 OpenAI не проходит гладко

Alex24

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Обновлена в пятницу, 8 августа, 17:21 по восточному времени: Вскоре после публикации этого поста соучредитель и генеральный директор OpenAI Сэм Альтман объявил, что компания восстановит доступ к GPT-4O и другим старым моделям для выбранных пользователей, признав, что запуск GPT-5 был «более ухабительным, чем мы надеялись».

Запуск давно ожидаемой новой модели Openai, GPT-5 уйти в скалистый старт если не сказать больше.

Даже прощение ошибок в диаграммах и демонстрациях голоса во время вчерашней трансляции новой модели (на самом деле четыре отдельных моделях и режим «мышления», который может быть задействован для трех из них), A Количество пользовательских отчетов появилось с момента выпуска GPT-5, показывая его ошибка При решении относительно простых проблем, которые предшествуют моделям Openai — и соперникам от конкурирующих лабораторий искусственного интеллекта — ответьте правильно.

Например, ученый для данных Колин Фрейзер опубликовал скриншоты GPT-5 Получите математическое доказательство неправильного (будь то 8,888 повторение равно 9-это, конечно, нет).

Это также не удалось на простой арифметике алгебры проблема Эти начальные школьники, вероятно, могли бы прибить, 5,9 = x + 5.11.

С использованием GPT-5, чтобы судить о собственных ошибочных схемах презентации Openai также не дали полезных или правильных ответовПолем

Это также не удалось в этой более сложной задаче по математическому слову ниже (что, честно говоря, сначала озадачило этот человек…Хотя AI Elon Musk’s Grok 4 AI правильно ответилПолем Для подсказка, подумайте о том, что флагсты в этом случае нельзя разделить на меньшие части. Они должны оставаться в такте как 80 отдельных единиц, так что нет половинок или кварталов).

Старая модель 4O показала для меня лучше по крайней мере на одной из этих математических задач. К сожалению, OpenAI постепенно выпускает эти старые модели, в том числе бывшие по умолчанию GPT-4O и мощную модель рассуждений O3 — Для пользователей CHATGPT, хотя они будут продолжать быть доступны в интерфейсе прикладных программ (API) для разработчиков в обозримом будущем.

Не так хорошо в кодировании, как указывают критерии

Несмотря на то, что внутренние тесты Openai и некоторые сторонние внешние показали GPT-5, чтобы превзойти все другие модели на кодировании, Похоже, что в реальном использовании, недавно обновленная Anpropic Claude Opus 4.1, кажется, лучше справляется с «одноразовыми» определенными задачамиТо есть заполнение желаемого приложения пользователя или программного обеспечения в соответствии с их спецификациями. См. Пример ниже от разработчика Джастина Сан, опубликованного в X:

Кроме того, в отчете компании SPLX было показано, что внутренний уровень безопасности OpenAI оставил серьезные пробелы в таких областях, как выравнивание бизнеса и уязвимость, чтобы привести к быстрому инъекции и запугиванию логических атак.

Несмотря на то, что он анекдотичен, проверка температуры на том, как модель делает с ранними усыновителями ИИ, по -видимому, указывает на холодный прием.

ИИ Влияние и бывший гуглер Билавал Сидху опубликовали опрос на X с просьбой о «проверке атмосфера» от его последователей и более широкой базы пользователей, и до сих пор с 172 голосами в Подавляющий ответ — «вроде середина».

И, как написал псевдонимные утечки ИИ и новостная учетная запись, «Подавляющий консенсус по GPT-5 от X и Reddit AMA в подавляющем большинстве негативно».

Тибор Блахо, ведущий инженер AIPRM и популярный плакат по утечкам и новостям AI на X, подытожил множество проблем с развертыванием CHATGPT-5 в отличном посте, подчеркивая, что одна из новых функций шатра -Автоматический «маршрутизатор» в Chatgpt, который выбирает режим мышления или не мышления для базовой модели GPT-5 в зависимости от сложности запроса-стал одной из главных жалоб, Учитывая, что модель, казалось, была по умолчанию в режиме без мышления для многих пользователей.

Соревнование в ожидании

Таким образом, Устройство по отношению к CHATGPT-5 далеко не повсеместно позитивно, подчеркивая серьезную проблему для OpenAI Поскольку он сталкивается с растущей конкуренцией со стороны крупных американских конкурентов, таких как Google и Anpropic, и растущий список бесплатных открытых и мощных китайских LLM, предлагающих функции, которых не хватает многим моделям США.

Принять Alibaba Qwen Команда исследователей ИИ, Кто только сегодня обновил свою высокопрофессиональную модель QWEN 3, чтобы иметь 1 миллион токенов — контекст токена — Предоставлять пользователям возможность обмениваться почти в 4 раза больше информации с моделью в одном взаимодействии Back/Forth, как и предлагает GPT-5.

Учитывая другой большой релиз OpenAI на этой неделе-новыми моделями GPT-OSS с открытым исходным кодом-также получил смешанный прием от ранних пользователей, все не смотрит на специальную компанию AI номер один от пользователей (700 миллионов активных пользователей CHATGPT).

Действительно, это также иллюстрируется пользователями рынка ставок Полимаркета в подавляющем большинстве случаев, решая после выпуска GPT-5, что У Google, вероятно, будет лучшая модель ИИ к концу этого месяца, август 2025 года.

Другие энергетические пользователи, такие как другие соучредитель и генеральный директор ИИ, Мэтт Шумер, который получил ранний доступ к GPT-5 и благосклонно в блоге в обзоре здесь, в обзоре, Спочил, что взгляды сдвинутся, поскольку все больше людей выясняют, как лучше всего использовать новую модель и скорректировать их подходы к интеграции:

Несмотря на то, что для GPT-5 еще ранние дни-и настроение может резко измениться, так как все больше пользователей получают в свои руки и попробуют для разных задач- Ранние признаки не выглядят так, как будто это «домашний пробег» для Openai Точно так же, как предыдущие выпуска, такие как GPT-4, или даже более новые 4o и O3, были. И это касается индикатора для компании, которая только что подняла еще один раунд финансирования, но остается убыточным из -за высоких затрат на исследования и разработки.



Источник

Рекомендуем

Оставить комментарий