Создание AI Voice AI, который слушает всех: передача обучения и синтетическую речь в действии

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Вы когда -нибудь думали о том, что значит использовать голосового помощника, когда ваш собственный голос не соответствует тому, что ожидает система? ИИ не просто изменяет, как мы слышим мир; Это трансформирует, кто будет услышан. В эпоху разговорного ИИ доступность стала важным эталоном для инноваций. Голосовые помощники, инструменты для транскрипции и аудио-интерфейсы находятся везде. Одним из недостатков является то, что для миллионов людей с нарушениями речи эти системы часто могут терпеть неудачу.

Как человек, который много работал над речевыми и голосовыми интерфейсами на автомобильных, потребительских и мобильных платформах, я видел обещание ИИ в улучшении того, как мы общаемся. По моему опыту, ведущая разработка звонков без громкой связи, массивов для формирования луча и систем бодрствования, я часто спрашивал: что происходит, когда голос пользователя выходит за пределы зоны комфорта модели? Этот вопрос заставил меня думать о включении не только как функции, но и ответственности.

В этой статье мы рассмотрим новую границу: ИИ, который может не только повысить ясность и производительность голоса, но и в корне обеспечить разговор для тех, кто оставил позади традиционные голосовые технологии.

Переосмысление разговорного ИИ для доступности

Чтобы лучше понять, как работают инклюзивные речевые системы искусственного интеллекта, давайте рассмотрим архитектуру высокого уровня, которая начинается с нестандартных речевых данных и использует обучение передачи на модели с тонкой настройкой. Эти модели разработаны специально для нетипичных речевых шаблонов, создавая как распознаваемый текст, так и даже синтетические голосовые выходы, адаптированные для пользователя.

Стандартные системы распознавания речи борются, когда сталкиваются с нетипичными речевыми моделями. Будь то из -за церебрального паралича, БАС, заикания или вокальной травмы, люди с нарушениями речи часто не вызывают или игнорируются текущими системами. Но глубокое обучение помогает изменить это. Обучив модели на нестандартных речевых данных и применяя методы обучения переноса, разговорные системы ИИ могут начать понимать более широкий спектр голосов.

Помимо признания, генеративный ИИ в настоящее время используется для создания синтетических голосов на основе небольших образцов от пользователей с нарушениями речи. Это позволяет пользователям обучать свой собственный голосовой аватар, обеспечивая более естественное общение в цифровых пространствах и сохраняя личную вокальную идентичность.

Существуют даже платформы, где люди могут вносить свои речевые модели, помогая расширить публичные наборы данных и улучшить будущую инклюзивность. Эти краудсорсингированные наборы данных могут стать критическими активами для создания систем искусственного интеллекта по -настоящему универсальными.

Вспомогательные функции в действии

Системы вспомогательного увеличения голоса в реальном времени следуют сложному потоку. Начиная с речевого ввода, который может быть дисфлуентом или отсроченным, модули ИИ применяют методы улучшения, эмоциональный вывод и контекстуальную модуляцию, прежде чем производить четкую, выразительную синтетическую речь. Эти системы помогают пользователям говорить не только разумно, но и осмысленно.

Вы когда -нибудь предполагали, каково это, чтобы говорить плавно говорить с помощью ИИ, даже если ваша речь нарушена? Увеличение голоса в режиме реального времени-одна из таких функций, которые делают шаги. Увеличивая артикуляцию, заполняя паузы или сглаживая дисфузости, ИИ действует как совместный пилот в разговоре, помогая пользователям сохранять контроль при улучшении разборчивости. Для людей, использующих интерфейсы текста в речь, разговорной ИИ теперь может предлагать динамические ответы, фразы на основе настроений и просодию, которая соответствует намерению пользователя, возвращая личность обратно компьютерному общению.

Другая многообещающая область — прогнозное языковое моделирование. Системы могут изучить уникальные фразы или словаря пользователя, улучшать прогнозирующий текст и ускорить взаимодействие. В сочетании с доступными интерфейсами, такими как клавиатуры для отслеживания глаз или элементы управления SIP-and Puff, эти модели создают отзывчивый и беглый поток разговоров.

Некоторые разработчики даже интегрируют анализ выражения лица, чтобы добавить больше контекстного понимания, когда речь затруднена. Комбинируя мультимодальные входные потоки, системы ИИ могут создавать более нюансированный и эффективный шаблон отклика, адаптированный к режиме связи каждого человека.

Личное представление: голос за пределами акустики

Однажды я помог оценить прототип, который синтезировал речь из остаточных вокализаций пользователя с ALS на поздних стадиях. Несмотря на ограниченную физическую способность, система адаптировалась к ее хриплому фонациям и реконструированной речи с тоном и эмоциями. Видеть ее свет, когда она услышала, как ее «голос» снова говорит, было унизительным напоминанием: ИИ — это не только показатели производительности. Речь идет о человеческом достоинстве.

Я работал над системами, где эмоциональный нюанс был последней проблемой, чтобы преодолеть. Для людей, которые полагаются на вспомогательные технологии, важно понимать, но чувство понимания является трансформационным. Разговорной ИИ, который адаптируется к эмоциям, может помочь сделать этот прыжок.

Последствия для строителей разговорного ИИ

Для тех, кто проектирует следующее поколение виртуальных помощников и голосовых платформ, должна быть встроена доступность, а не прикреплена. Это означает сбор различных данных обучения, поддержку невербальных входов и использование федеративного обучения для сохранения конфиденциальности при постоянном улучшении моделей. Это также означает инвестиции в обработку краев с низкой задержкой, поэтому пользователи не сталкиваются с задержками, которые нарушают естественный ритм диалога.

Предприятия, принимающие интерфейсы с AI, должны учитывать не только удобство использования, но и включение. Поддержка пользователей с ограниченными возможностями не просто этичная, это рыночная возможность. По данным Всемирной организации здравоохранения, более 1 миллиарда человек живут с какой -либо формой инвалидности. Доступный ИИ пользуется всеми, от стареющего населения до многоязычных пользователей до тех, кто временно нарушает.

Кроме того, существует растущий интерес к объяснимым инструментам ИИ, которые помогают пользователям понять, как обрабатывается их ввод. Прозрачность может укрепить доверие, особенно среди пользователей с ограниченными возможностями, которые полагаются на ИИ как коммуникационный мост.

С нетерпением жду

Обещание разговорного ИИ — это не только понимание речи, но и понимать людей. Слишком долго голосовая технология лучше всего работала для тех, кто говорит ясно, быстро и в узком акустическом диапазоне. С помощью ИИ у нас есть инструменты для создания систем, которые более широко слушают и реагируют более сострадательно.

Если мы хотим, чтобы будущее разговора было по -настоящему умным, оно также должно быть инклюзивным. И это начинается с каждого голоса.

Harshal Shah — это специалист по голосовой технологии, увлеченный тем, чтобы соединить человеческое выражение и понимание машины с помощью инклюзивных голосовых решений.

Источник

Переосмысление разговорного ИИ для доступности

Вспомогательные функции в действии

Личное представление: голос за пределами акустики

Последствия для строителей разговорного ИИ

С нетерпением жду

Moonshot AI Kimi K2 превосходит GPT-4 в ключевых тестах-и это бесплатно

Перестаньте проверять инженеры, такие как 2021 год-пришла рабочая сила AI-местной

Рекомендуем

Оставить комментарий Отменить ответ