Опенкуа с открытым исходным кодом с открытым исходным кодом. Собственные модели конкурируют с Openai и Anpropic

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Новая структура исследователей из Университета Гонконга (HKU) и сотрудничества, предоставляет основу с открытым исходным кодом для создания надежных агентов искусственного интеллекта, которые могут управлять компьютерами. Структура, называемая OpenCua, включает в себя инструменты, данные и рецепты масштабирования разработки компьютерных агентов (CUAS).

Модели, обученные с использованием этой структуры, сильно работают на критериях CUA, опережая существующие модели с открытым исходным кодом и внимательно конкурируя с закрытыми агентами от ведущих лабораторий искусственного интеллекта, таких как OpenAI и Anpropic.

Задача создания компьютерных агентов

Компьютерные агенты предназначены для автономного выполнения задач на компьютере, от навигации по веб-сайтам до программного обеспечения для операционного комплекса. Они также могут помочь автоматизировать рабочие процессы на предприятии. Тем не менее, наиболее способные системы CUA являются собственными, с критическими подробностями об их учебных данных, архитектурах и процессах разработки, которые остаются частными.

«Поскольку отсутствие прозрачности ограничивает технические достижения и повышает проблемы безопасности, исследовательское сообщество нуждается в действительно открытых рамках CUA для изучения своих возможностей, ограничений и рисков», — заявляют исследователи в своей статье.

В то же время усилия с открытым исходным кодом сталкиваются с собственным набором препятствий. Не было масштабируемой инфраструктуры для сбора разнообразных, крупномасштабных данных, необходимых для обучения этих агентов. Существующие наборы данных с открытым исходным кодом для графических пользовательских интерфейсов (GUI) имеют ограниченные данные, и многие исследовательские проекты предоставляют недостаточные подробности о своих методах, что затрудняет воспроизведение своей работы.

Согласно документу, «эти ограничения в совокупности препятствуют достижениям в CUA общего назначения и ограничивают значимое исследование их масштабируемости, обобщения и потенциальных подходов к обучению».

Представляем Opencua

*OpenCua Framework Источник: Xlang Lab в HKU*

OpenCua — это структура с открытым исходным кодом, предназначенная для решения этих проблем, масштабируя как сбор данных, так и сами модели. По своей сути лежит инструмент Agentnet для записи человеческих демонстраций компьютерных задач в различных операционных системах.

Инструмент оптимизирует сбор данных, работая в фоновом режиме на персональном компьютере аннотатора, снимая видео с экраном, входы мыши и клавиатуры и базовое дерево доступности, которое предоставляет структурированную информацию о экране элементах. Затем эти необработанные данные обрабатываются в «траектории состояния действий», соединяя скриншот компьютера (состояния) с соответствующим действием пользователя (клик, нажатие клавиши и т. Д.). Затем аннотаторы могут просмотреть, редактировать и представить эти демонстрации.

*Источник инструмента Agentnet: xlang Lab в HKU*

Используя этот инструмент, исследователи собрали набор данных Agentnet, который содержит более 22 600 демонстраций задач в Windows, MacOS и Ubuntu, охватывающей более 200 приложений и веб -сайтов. «Этот набор данных достоверно отражает сложность поведения человека и динамики окружающей среды из среды персональных вычислений пользователей», — отмечает в статье.

Признавая, что инструменты пересмотра экрана выдвигают значительные проблемы конфиденциальности данных для предприятий, исследователи разработали инструмент Agentnet с учетом безопасности. Синьуан Ван, соавтор бумаги и аспирант в HKU, объяснил, что они внедрили многослойную структуру защиты конфиденциальности. «Во -первых, сами аннотаторы могут полностью соблюдать данные, которые они генерируют… прежде чем решить, отправлять ли их», — сказал он VentureBeat. Затем данные подвергаются ручной проверке по вопросам конфиденциальности и автоматического сканирования с помощью большой модели для обнаружения любого оставшегося чувствительного контента перед выпуском. «Этот многослойный процесс обеспечивает надежность корпоративного уровня для среды, обрабатывающую конфиденциальные клиенты или финансовые данные»,-добавил Ван.

Чтобы ускорить оценку, команда также курировала AgentnetBench, автономный эталон, который обеспечивает несколько правильных действий для каждого шага, предлагая более эффективный способ измерения производительности агента.

Новый рецепт тренировочных агентов

Структура OpenCua вводит новый конвейер для обработки данных и обучающих компьютерных агентов. Первый шаг превращает необработанные человеческие демонстрации в чистые пары состояния, подходящие для обучения моделей на языке зрения (VLMS). Тем не менее, исследователи обнаружили, что простое обучение моделей по этим парам дает ограниченный прирост производительности, даже с большими объемами данных.

*OpenCua Chain of Yout Coolceline Источник: Xlang Lab в HKU*

Ключевым пониманием было увеличить эти траектории с помощью цепей мыслей (COT). Этот процесс генерирует подробный «внутренний монолог» для каждого действия, которое включает в себя планирование, память и отражение. Это структурированное рассуждение организовано на три уровня: наблюдение на высоком уровне экрана, рефлексивные мысли, которые анализируют ситуацию и планируют следующие шаги, и, наконец, краткое, исполняемое действие. Этот подход помогает агенту развить более глубокое понимание задач.

«Мы находим рассуждение о естественном языке, имеющим решающее значение для обобщаемых моделей по компьютерному использованию, помогая CUAS усвоить когнитивные возможности»,-пишут исследователи.

Этот трубопровод синтеза данных является общей структурой, которая может быть адаптирована компаниями для обучения агентов на своих уникальных внутренних инструментах. По словам Ванга, предприятие может записывать демонстрации своих проприетарных рабочих потоков и использовать тот же трубопровод «отражателя» и «генератора» для создания необходимых данных обучения. «Это позволяет им загрузить высокопроизводительный агент, адаптированный к их внутренним инструментам, не нуждаясь в следов рассуждения вручную»,-пояснил он.

Проведение OpenCua на проверку

Исследователи применили структуру OpenCua для обучения ряда VLM с открытым исходным кодом, включая варианты QWEN и KIMI-VL, с размерами параметров от 3 миллиардов до 32 миллиардов. Модели были оценены на наборе онлайн -и автономных тестов, которые проверяют их способность выполнять задачи и понимать GUI.

Модель на 32 миллиарда параметра, OpenCua-32B, установила новый современный показатель успешности среди моделей с открытым исходным кодом на ориентированном на Osworld. Он также превзошел CUA на основе GPT-4O OpenAI и значительно закрыл разрыв в производительности ведущими проприетарными моделями Anpropic.

OpenCua показывает масштабное улучшение по сравнению с базовыми моделями (слева), конкурируя с ведущими моделями CUA (справа) Источник: Xlang Lab в HKU

Для разработчиков предприятий и лидеров продуктов исследование предлагает несколько ключевых выводов. Метод OpenCua широко применим, повышая производительность на моделях с различными архитектурами (как плотными, так и смесями экспертов) и размерами. Обученные агенты также демонстрируют сильное обобщение, хорошо выполняя разнообразные задачи и операционные системы.

По словам Ванга, структура особенно подходит для автоматизации повторяющихся трудоемких рабочих процессов предприятия. «Например, в наборе данных Agentnet мы уже делаем несколько демонстраций запуска экземпляров EC2 на Amazon AWS и настройки параметров аннотаций на Mturk», — сказал он VentureBeat. «Эти задачи включают в себя много последовательных шагов, но следуют повторяемым закономерникам».

Тем не менее, Ван отметил, что преодоление разрыва для жизни для жизни требует решения ключевых проблем, связанных с безопасностью и надежностью. «Самая большая проблема в реальном развертывании — безопасность и надежность: агент должен избегать ошибок, которые могут непреднамеренно изменить настройки системы или вызвать вредные побочные эффекты за пределами предполагаемой задачи», — сказал он.

Исследователи выпустили код, набор данных и вес для своих моделей.

По мере того, как агенты с открытым исходным кодом, построенные на рамках, таких как Opencua, становятся более способными, они могут принципиально развивать отношения между работниками знаний и их компьютерами. Ван представляет собой будущее, когда знание сложного программного обеспечения становится менее важной, чем способность четко сформулировать цели для агента искусственного интеллекта.

Он описал два основных способа работы: «Офлайн-автоматизация, где агент использует свои более широкие знания программного обеспечения, чтобы выполнить задачу сквозной» и «онлайн-сотрудничество, где агент реагирует в режиме реального времени и работает рядом с человеком, очень похожим на коллегу». По сути, люди предоставят стратегическое «что», в то время как все более сложные агенты ИИ справляются с оперативным «как».

Источник

Задача создания компьютерных агентов

Представляем Opencua

Новый рецепт тренировочных агентов

Проведение OpenCua на проверку

Оптимизация затрат на AI-инфраструктуру: альтернативные режимы работы с нейросетями

Разбит Эм Дэш — любимая отметка знаки препинания ИИ и то, как она дует твоя обложка

Рекомендуем

Оставить комментарий Отменить ответ