На рынке AI Reload Voice, Openai делает ставки на обучение на инструкциях и выразительную речь, чтобы выиграть внедрение предприятий

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

OpenAI добавляет ко все более конкурентоспособному рынку AI Voice для предприятий с его новой моделью GPT-Realtime, которая следует за сложными инструкциями и голосами, «которые звучат более естественным и выразительным».

По мере того, как Voice AI продолжает расти, и клиенты находят варианты использования, такие как звонки по обслуживанию клиентов или перевод в режиме реального времени, рынок для реалистично звучащих голосов искусственного интеллекта, который также обеспечивает нагрев безопасности предприятия. Openai утверждает, что его новая модель обеспечивает более человеческий голос, но она все еще должна конкурировать с такими компаниями, как ElevenLabs.

Модель будет доступна на API в режиме реального времени, что компания также сделала в целом доступной. Наряду с моделью GPT-Realtime, Openai также выпустил новые голоса на API, которые называет Cedar и Marin, и обновил другие свои голоса для работы с последней моделью.

Openai сказал в прямой трансляции, что он работал со своими клиентами, которые создают голосовые приложения для обучения GPT-Realtime и «тщательно выровняли модель с Evals, которые построены на реальных сценариях, таких как поддержка клиентов и академическое обучение».

https://www.youtube.com/watch?v=nfbbmtmjhx0

Компания рекламировала способность модели создавать эмоциональные, естественные голоса, которые также соответствуют тому, как разработчики строят с помощью технологии.

Модели речи до речи

Модель работает в рамках речи до речи, позволяя ей понять разговорные подсказки и реагировать вокально. Модели речи до речи идеально подходят для ответов в реальном времени, где человек, обычно клиент, взаимодействует с приложением.

Например, клиент хочет вернуть некоторые продукты и вызывает платформу обслуживания клиентов. Они могли бы разговаривать с голосовым помощником ИИ, который отвечает на вопросы и запросы, как будто они разговаривали с человеком.

В прямом эфире клиенты Openai T-Mobile продемонстрировали агента по голосовым двигателям, который помогает людям найти новые телефоны. Другой клиент, платформа для поиска недвижимости Zillow, продемонстрировал агента, который помогает кому -то сузить район, чтобы найти идеальное место.

Openai сказал, что GPT-Realtime-это «самая продвинутая, готовая к производству голосовую модель». Как и другие его голосовые модели, он может переключать языки в середине предложения. Тем не менее, исследователи Openai отметили, что GPT-Realtime может следовать более сложным инструкциям, таким как «Выразительно говорить на французском акценте».

Но GPT-Realtime сталкивается с конкуренцией со стороны других моделей, которые уже используют многие бренды. ElevenLabs выпустили разговор AI 2.0 в мае. Soundhound партнера с франшизами быстрого питания для AI Voice Drive-Thru. Выразительный стартап искусственного интеллекта Хьюм запустил свою модель EVI 3, которая позволяет пользователям генерировать версии ИИ своего собственного голоса.

Поскольку предприятия обнаруживают различные варианты использования для голосового искусственного интеллекта, еще более общие поставщики моделей, которые предлагают мультимодальные LLMS, представляют собой случай для себя. Мистраль выпустил свою новую модель Voxtral, заявив, что она будет хорошо работать с переводом в реальном времени. Google расширяет свои возможности аудио и набирает популярность с помощью аудио -функции на Notebooklm, которая преобразует исследовательские заметки в подкаст.

Лучшая инструкция следующая

Openai сказал, что GPT-Realtime умнее и лучше понимает местный звук, в том числе способность ловить невербальные сигналы, такие как смех или вздохи.

Бенчмаркинг с использованием Big Bench Audio Eval показал точность модели, набравшая 82,8% по сравнению с его предыдущей моделью, которая набрала 65,6%. OpenAI не предоставил цифры, испытывающие GPT-Realtime против моделей от своих конкурентов.

OpenAI сосредоточился на улучшении возможностей для подготовки инструкций, гарантируя более эффективную модель. Новая модель достигает оценки 30,5% по многокачественному звуковому эталону. Инженеры также усилили функции вызова, поэтому GPT-Realtime может получить доступ к правильным инструментам.

Обновления API в реальном времени

Чтобы поддержать новую модель и улучшить то, как предприятия интегрируют возможности ИИ в режиме реального времени в свои приложения, OpenAI добавил несколько новых функций в API в реальном времени.

Теперь он может поддерживать MCP и распознавать входы изображений, позволяя информировать пользователей о том, что он видит в режиме реального времени. Это функция Google, подчеркиваемой во время презентации проекта Astra в прошлом году.

API в реальном времени также может обрабатывать протокол инициации сеанса (SIP). SIP подключает приложения к телефонам, таким как общедоступная телефонная сеть или настольные телефоны, открывая больше вариантов использования контактных центров. Пользователи также могут сохранять и повторно использовать подсказки на API.

До сих пор люди впечатлены моделью, хотя это все еще являются начальными тестами модели, которая была недавно выпущена.

TBH, функции MCP и SIP — это настоящая история, а не просто еще одна модель.

Способность беспрепятственно подключаться к внешним инструментам и системам — это то, что в конечном итоге переместит эти модели от впечатляющих демонстраций к интеграции в реальные рабочие процессы.

Аспект в реальном времени …
— jk (@_junaidkhalid1) 28 августа 2025 года

Тестирование GPT-Realtime

Первоначальный обзор:
— заметное улучшение звука
— Это нагнетатель для инструкций (очень хорошо)
— чувствует себя быстро pic.twitter.com/ltycs0qlxv
— Джейк Коллинг (@JacobColling) 28 августа 2025 года

Что ж, GPT-Realtime получил прямую трансляцию не потому, что большинство пользователей заинтересованы, но по стратегическим бизнес-причинам

Центры вызовов являются основной целью для поставщиков LLM, и первая компания, которая достигнет реального прорыва, получит огромный доход
— Anko (@anko_979) 28 августа 2025 года

Плюсы и минусы от @Openai Обновление в реальном времени от кого-то, кто строит в AI Audio:

Pro: лучшее вызов функции, больше эмоций, на 20% дешевле, лучше контролировать, изображение круто, но не использует

CON: никаких пользовательских голосов (творческий опыт должен иметь), все еще * дорогие
— Гэвин Перселл (@gavinpurcell) 28 августа 2025 года

OpenAI снизил цены на GPT-Realtime на 20% до 32 долларов США на миллион токенов аудио и 64 долл. США для токенов вывода аудио.

Источник

Модели речи до речи

Лучшая инструкция следующая

Обновления API в реальном времени

NVIDIA за 46,7 млрд. К -2 Q2 доказывает платформу, но ее следующий бой — ASIC Economics по выводу

Созданная ИИ короткометражка «Идеально отвергнутые» — призер кинофестиваля «Короче»

Рекомендуем

Оставить комментарий Отменить ответ