Главная Новости Уверенность в агентском ИИ: Почему инфраструктура оценки должна быть на первом месте

Уверенность в агентском ИИ: Почему инфраструктура оценки должна быть на первом месте

Alex24


По мере того, как агенты искусственного интеллекта вступают в развертывание в реальном мире, организации находятся под давлением, чтобы определить, где они принадлежат, как эффективно построить их и как их реализовать в масштабе. В Transforce 2025 в Venturebeat технические лидеры собрались, чтобы рассказать о том, как они трансформируют свой бизнес с агентами: Джоан Чен, генеральный партнер Foundation Capital; Шайлеш Налавади, вице -президент по управлению проектами с Sendbird; Твои вандерс, SVP трансформации ИИ в когниции; и Шон Малхотра, технический директор, ракетные компании.

Несколько ведущих вариантов использования ИИ

«Первоначальная привлекательность любого из этих развертываний для агентов ИИ имеет тенденцию к спасению человеческого капитала — математика довольно проста», — сказал Налавади. «Однако это недооценивает трансформационные возможности, которые вы получаете с агентами ИИ».

В Rocket агенты искусственного интеллекта оказались мощными инструментами для увеличения преобразования веб -сайтов.

«Мы обнаружили, что с нашим агентом опыта, разговорного опыта на веб-сайте, клиенты в три раза чаще преобразуются, когда они пройдут через этот канал»,-сказал Малхотра.

Но это просто царапает поверхность. Например, ракетный инженер построил агента всего за два дня для автоматизации высокоспециализированной задачи: расчет налогов на передачу во время андеррайтинга ипотеки.

«Эти два дня усилий сэкономили нам миллион долларов в год», — сказал Малхотра. «В 2024 году мы сэкономили более миллиона часов членов команды, в основном от наших решений для искусственного интеллекта. Это не просто экономия расходов. Это также позволяет членам нашей команды сосредоточить свое время на людях, делающих то, что часто является крупнейшей финансовой транзакцией в своей жизни».

Агенты, по сути, нагружают отдельные члены команды. Этот миллион часов, сэкономивших, — это не всякая работа, воспроизводимая много раз. Это доли работы, что сотрудники не любят делать или не добавляли ценность для клиента. И этот сэкономивший миллион часов дает Rocket возможность заниматься большим количеством бизнеса.

«Некоторые из членов нашей команды смогли справиться с на 50% больше клиентов в прошлом году, чем годом ранее», — добавил Малхотра. «Это означает, что мы можем иметь более высокую пропускную способность, стимулировать больше бизнеса, и, опять же, мы видим более высокие показатели конверсии, потому что они тратят время на понимание потребностей клиента, а не выполняя гораздо большую работу, которую ИИ может сделать сейчас».

Борьба с сложностью агента

«Часть пути к нашим инженерным группам переходит от мышления разработки программного обеспечения — напишите один раз и протестируйте его, и он работает и дает один и тот же ответ 1000 раз — к более вероятностному подходу, где вы спрашиваете то же самое в LLM, и это дает разные ответы через некоторую вероятность», — сказал Налавади. «Многое из этого приводило людей.

Что помогло, так это то, что LLM прошли долгий путь, сказал Wananders. Если они построили что -то 18 месяцев или два года назад, им действительно пришлось выбрать правильную модель, иначе агент не будет работать так, как ожидалось. Теперь, по его словам, мы сейчас находимся на стадии, где большинство основных моделей ведут себя очень хорошо. Они более предсказуемы. Но сегодня задача состоит в том, чтобы объединить модели, обеспечивая отзывчивость, организует правильные модели в правильной последовательности и ткачество в правильных данных.

«У нас есть клиенты, которые продвигают десятки миллионов разговоров в год», — сказал Ваандерс. «Если вы автоматизируете, скажем, 30 миллионов разговоров за год, как это масштабируется в мире LLM? Это все, что нам пришлось открыть, простые вещи, даже от получения доступности модели с облачными поставщиками. Например, у нас есть достаточно квот с моделью Chatgpt.

По словам Малхотра, слой выше, оркестровав LLM, представляет собой сеть агентов. В разговорном опыте есть сеть агентов под капотом, и оркестратор решает, какой агент обрабатывает запрос от доступных.

«Если вы играете в это вперед и думаете о том, чтобы иметь сотни или тысячи агентов, которые способны на разные вещи, вы получаете некоторые действительно интересные технические проблемы», — сказал он. «Это становится большей проблемой, потому что задержка и время имеют значение. Этот агент маршрутизация станет очень интересной проблемой для решения в ближайшие годы».

Направляя отношения с поставщиками

До этого момента первый шаг для большинства компаний, запущенных агентского искусственного интеллекта, строил внутренние, потому что специализированные инструменты еще не существовали. Но вы не можете дифференцировать и создавать ценность, создавая общую инфраструктуру LLM или инфраструктуру искусственного интеллекта, и вам нужен специализированный опыт, чтобы выйти за рамки первоначальной сборки, отладка, итерацию и улучшить то, что было построено, а также поддержание инфраструктуры.

«Часто мы находим самые успешные разговоры, которые мы проводим с потенциальными клиентами, как правило, являются тем, кто уже создал что-то собственное»,-сказал Налавади. «Они быстро понимают, что добраться до 1.0 — это нормально, но по мере развития мира и по мере развития инфраструктуры и, как им необходимо обмениваться технологией на что -то новое, у них нет возможности организовать все эти вещи».

Подготовка к агентской сложности ИИ

Теоретически, агент AI будет расти только в сложности — число агентов в организации будет расти, и они начнут учиться друг у друга, и количество вариантов использования будет взорваться. Как организации могут подготовиться к вызову?

«Это означает, что проверки и балансы в вашей системе будут подвергаться стрессу больше», — сказал Малхотра. «Для чего -то, у которого есть процесс регулирования, у вас есть человек в цикле, чтобы убедиться, что кто -то подписывает это. Для критических внутренних процессов или доступа к данным есть ли у вас наблюдаемость? У вас есть правильное предупреждение и мониторинг, чтобы, если что -то пойдет не так, вы знали, что это идет не так? Разблокирует, вы должны это сделать ».

Итак, как вы можете быть уверены, что агент ИИ будет вести себя надежно по мере его развития?

«Эта часть действительно сложна, если вы не думали об этом в начале», — сказал Налавади. «Короткий ответ заключается в том, что еще до того, как вы начнете его создавать, у вас должна быть инфраструктура Eval. Убедитесь, что у вас есть строгая среда, в которой вы знаете, как выглядит хорошо, от агента искусственного интеллекта, и что у вас есть этот тестовый набор. Продолжайте обращаться к нему, когда вы делаете улучшения. Очень упрощенный способ размышления о Eval — это модульные испытания для вашей агентской системы».

Проблема в том, что это не определенное, добавлено. Единое тестирование имеет решающее значение, но самая большая проблема в том, что вы не знаете, чего не знаете — какое неправильное поведение может показать агент, как это может отреагировать в любой конкретной ситуации.

«Вы можете узнать это, только моделируя разговоры в масштабе, подтолкнув его под тысячи различных сценариев, а затем анализируя, как они выдерживают и как он реагирует», — сказал Ваандерс.



Источник

Рекомендуем

Оставить комментарий