Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Исследователи в Salesforce и Университете Южной Калифорнии разработали Новый метод, который дает компьютерным агентам возможность выполнять код при навигации по графическим пользовательским интерфейсам (GUI)То есть написание сценариев, а также перемещение курсора и/или кнопок нажатия на приложение, объединяя лучшие из обоих подходов для ускорения рабочих процессов и уменьшения ошибок.
Этот гибридный подход позволяет агенту Обход хрупких и неэффективных щелчков мышей Для задач, которые могут быть лучше выполнены с помощью кодирования.
Система, называемая CoAct-1, устанавливает новый современный ставку на ключевые тесты агента, опережать другие методы, пока требуя значительно меньше шагов Для выполнения сложных задач на компьютере.
Это обновление может проложить путь для более надежной и масштабируемой автоматизации агента с значительным потенциалом для реальных приложений.
Хрупкость агентов AI Point and Click
Агенты использования компьютера, как правило, полагаются на модели на языке зрений и зрение (VLMS или VLA), чтобы воспринимать экран и принять меры, имитируя, как человек использует мышь и клавиатуру.
Хотя эти агенты на основе графического интерфейса могут выполнять различные задачи, они Часто колеблюсь, когда сталкивается с длинными, сложными рабочими процессами, особенно в приложениях с плотными меню и вариантамикак офисные кабинеты.
Например, задача, которая включает в себя местонахождение конкретной таблицы в электронной таблице, фильтрация ее и сохранение в виде нового файла, может включать длинную и точную последовательность манипуляций с графическим интерфейсом.
Именно здесь появляется хрупкость. «В этих сценариях существующие агенты часто борются с двусмысленностью заземления (например, различие между визуально похожими значками или пунктами меню) и накопленной вероятностью совершения какой -либо единой ошибки в течение длинного горизонта», — пишут исследователи в своей статье. «Единственный неправильный клик или неправильно понятый элемент пользовательского интерфейса может сорвать всю задачу».
Чтобы решить эти проблемы, многие исследователи сосредоточились на увеличении агентов графического интерфейса с помощью планировщиков высокого уровня.
Эти системы используют мощные модели рассуждений, такие как O3 Openai, чтобы разложить цель высокого уровня пользователя в последовательность более мелких, более управляемых подзадач.
Хотя этот структурированный подход повышает производительность, он не решает проблему навигации меню и кнопок нажатия, даже для операций, которые могут быть выполнены более напрямую и надежно с помощью нескольких строк кода.
COACT-1: многоагентная команда для компьютерных задач
Чтобы решить эти ограничения, исследователи создали COACT-1 (компьютерный агент с кодированием как действия), Система, предназначенная для «объединения интуитивно понятных, человеческих сильных сторон манипуляций с графическим интерфейсом с точностью, надежностью и эффективностью прямого взаимодействия системы посредством кода».
Система есть структурирован как команда из трех специализированных агентов, которые работают вместе: оркестратор, программист и оператор графического интерфейса.

Оркестратор выступает в качестве центрального планировщика или менеджера проекта. Он анализирует общую цель пользователя, разбивает ее на подзадачи и назначает каждую подзадачу лучшему агенту для работы. Он может делегировать бэкэнд, такие как управление файлами или обработка данных для программиста, который пишет и выполняет сценарии Python или Bash.
Для фронта Задачи, которые требуют нажатия кнопок или навигации на визуальных интерфейсах, они обращаются к оператору GUI, агенту на основе VLM.
«Эта динамическая делегирование позволяет CoACT-1 стратегически обходить неэффективные последовательности графического интерфейса в пользу надежного выполнения кода с одним выстрелом, где это уместно, при этом используя визуальное взаимодействие для задач, где оно необходимо»,-говорится в бумаге.
Рабочий процесс итеративный. После того, как программист или оператор графического интерфейса завершает подзадачу, он отправляет резюме и скриншот текущего состояния системы обратно в оркестратор, который затем решает следующий шаг или завершает задачу.
Агент программиста использует LLM для генерации своего кода и отправляет команды для интерпретатора кода для тестирования и уточнения своего кода в нескольких раундах.
Аналогичным образом, оператор GUI использует интерпретатор действия, который выполняет свои команды (например, нажимает мышь, набирает) и возвращает результирующий снимок экрана, позволяя ему увидеть результаты своих действий. Оркестратор принимает окончательное решение о том, должна ли задача продолжаться или остановиться.

Более эффективный путь к автоматизации
Исследователи протестировали COACT-1 на Osworld, комплексный эталон, который включает в себя 369 реальных задач между браузерами, IDES и Office.
Результаты показывают CoACT-1 устанавливает новый современный, достигающий уровня успеха 60,76%.
Повышение производительности было наиболее значимым в категориях, где программный контроль дает явное преимущество, такое как задачи уровня ОС и рабочие процессы с несколькими приложениями.
Например, Рассмотрим задачу на уровне ОС, например, поиск всех файлов изображений в сложной структуре папок, изменение их размера, а затем сжатие всего каталога в один архив.
А Чисто на основе графического интерфейса агент должен был бы выполнить длинную хрупкую последовательность кликов и перетаскиванияоткрывая папки, выбор файлов и навигационные меню с высокой вероятностью ошибки на каждом шаге.
COACT-1, напротив, может делегировать весь этот рабочий процесс своему агенту программиста, который может выполнить задачу с помощью одного, надежного сценария.

Помимо более высокого уровня успеха, система значительно более эффективна. COACT-1 решает задачи в среднем всего в 10,15 этапа, что резко контрастирует с 15,22 этапами, требуемыми ведущими агентами только для GUI, такими как GTA-1.
В то время как другие агенты, такие как CUA 4O Openai, набрали в среднем меньше шагов, их общий показатель успеха был намного ниже, что указывает на то, что эффективность CoAct-1 связана с большей эффективностью.
Исследователи нашли четкую тенденцию: Задачи, которые требуют большего количества действий, с большей вероятностью потерпят неудачу. Сокращение количества шагов не только ускоряет выполнение задач, но, что более важно, сводит к минимуму возможности ошибки.
Поэтому, Поиск способов сжатия нескольких шагов графического интерфейса в одну программную задачу может сделать процесс более эффективным и менее подверженным ошибкам.
Как заключают исследователи, «эта эффективность подчеркивает потенциал нашего подхода, чтобы проложить более надежный и масштабируемый путь к обобщенной компьютерной автоматизации».

От лаборатории до корпоративного рабочего процесса
Потенциал для этой технологии выходит за рамки общей производительности. Для лидеров предприятия ключ заключается в автоматизации сложных многопрофильных процессов, где полный доступ API является роскошью, а не гарантией.
Ран Сюй, соавтор документа и директор по прикладным исследованиям ИИ в Salesforce, указывает на поддержку клиентов в качестве яркого примера.
«Агент по поддержке услуг использует множество различных инструментов-общих инструментов, таких как Salesforce, отраслевые инструменты, такие как Epic для здравоохранения, и множество индивидуальных инструментов,-для изучения запроса клиента и сформулирования ответа»,-сказал Сюй VentureBeat. «Некоторые из инструментов имеют доступ к API, а другие нет. Это идеальный вариант использования, который потенциально может извлечь выгоду из нашей технологии: агент вычислительного использования, который использует все, что доступно на компьютере, будь то API, код или просто экран ».
Сюй также видит приложения с высокой стоимостью в продажах, такие как поиск в масштабе и автоматизация бухгалтерии, а также маркетинг для таких задач, как сегментация клиентов и генерация активов кампании.
Навигация на реальные проблемы и необходимость в человеческом надзоре
В то время как результаты на эталоне Osworld сильны, корпоративные среды гораздо более беспорядочные, заполнены устаревшим программным обеспечением и непредсказуемым пользовательским интерфейсом.
Это поднимает критические вопросы о надежности, безопасности и необходимости надзора за человеком.
Основной задачей является обеспечение того, чтобы агент оркестратора сделал правильный выбор, когда сталкивается с незнакомым применением. По словам Сюй, путь к тому, чтобы сделать такие агенты, как COACT-1, надежный для пользовательского корпоративного программного обеспечения, включает в себя обучение их обратной связи в реалистичных, моделируемых средах.
Цель состоит в том, чтобы создать систему, в которой «агент может наблюдать, как работают человеческие агенты, пройти обучение в песочнице, и когда он идет вживую, продолжайте решать задачи под руководством и ограждением человеческого агента».
Возможность для агента программиста выполнить свой собственный код также вводит очевидные проблемы безопасности. Что мешает агенту выполнять вредный код на основе неоднозначного запроса пользователя?
Сюй подтверждает, что надежная сдерживание необходима. «Контроль доступа и песочница — это ключ», — сказал он, подчеркнув, что человек должен «понимать это значение и предоставить доступ к ИИ для безопасности».
Песоочеение и ограждения будут иметь решающее значение для проверки поведения агента Перед развертыванием в критических системах.
В конечном счете, в обозримом будущем преодоление двусмысленности, вероятно, потребует человека в петле. Когда его спросили о обработке смутных пользовательских запросов, в статье также возникла проблема, Сюй предложил поэтапный подход. «Я вижу человека в петле, чтобы начать»,-отметил он.
Хотя некоторые задачи могут в конечном итоге стать полностью автономными, для операций с высокими ставками, человеческая проверка останется решающей. «Некоторые критически важные всегда могут нуждаться в одобрении человека».
Источник