Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Исследователи опубликовали наиболее всеобъемлющий опрос на сегодняшний день так называемых «агентов ОС»-систем искусственного интеллекта, которые могут автономно управлять компьютерами, мобильными телефонами и веб-браузерами, напрямую взаимодействуя со своими интерфейсами. 30-страничный академический обзор, принятый для публикации на престижной конференции Ассоциации вычислительной лингвистики, отображает быстро развивающуюся область, которая привлекла миллиарды инвестиций от крупных технологических компаний.
«Мечта создать помощников ИИ, столь же способных и универсальных, как вымышленный Джарвис из Железного Человека, давно очаровал воображение», — пишут исследователи. «С эволюцией (мультимодальных) крупных языковых моделей ((M) LLMS) эта мечта ближе к реальности».
Опрос, проведенный исследователями из Университета Чжэцзян и Центра ИИ Oppo, ставится в качестве крупных технологических компаний, которые участвуют в развертывании агентов искусственного интеллекта, которые могут выполнять сложные цифровые задачи. Openai недавно запустил «Оператор», выпущенный «Использование компьютера», Apple представила расширенные возможности ИИ в «Apple Intelligence», а Google представила «Project Mariner» — все системы, предназначенные для автоматизации компьютерных взаимодействий.

Технические гиганты спешат развернуть ИИ, который управляет вашим рабочим столом
Скорость, с которой академические исследования превратились в готовые к потребителям продукты, беспрецедентна, даже по стандартам Силиконовой долины. Опрос выявляет исследовательский взрыв: более 60 моделей фундамента и 50 агентских рамок, разработанных специально для управления компьютером, причем показатели публикации резко ускоряются с 2023 года.
Это не просто постепенный прогресс. Мы свидетельствуем о появлении систем ИИ, которые могут искренне понимать и манипулировать цифровым миром, как люди. Текущие системы работают, делая скриншоты экранов компьютеров, используя расширенное компьютерное зрение, чтобы понять, что отображается, затем выполняя точные действия, такие как кнопки нажатия, формы заполнения и навигация между приложениями.
«Агенты ОС могут выполнять задачи автономно и могут значительно улучшить жизнь миллиардов пользователей по всему миру», — отмечают исследователи. «Представьте себе мир, в котором такие задачи, как онлайн -магазины, бронирование путешествий и другие повседневные мероприятия, могут быть легко выполнены этими агентами».
Наиболее сложные системы могут обрабатывать сложные многоэтапные рабочие процессы, которые охватывают различные приложения-бронируя бронирование ресторана, а затем автоматически добавлять его в свой календарь, а затем устанавливать напоминание о том, чтобы оставить рано для трафика. То, что потребовалось человеческим протоколом щелчка и печати, теперь может произойти за считанные секунды, без вмешательства человека.

Почему эксперты по безопасности звучат тревоги о корпоративных системах, контролируемых ИИ
Для лидеров предприятия технологии обещание повышения производительности обеспечивает отрезвляющую реальность: эти системы представляют собой совершенно новую поверхность атаки, которую большинство организаций не готовы защищать.
Исследователи уделяют существенное внимание тому, что они дипломатично обозначают проблемы «безопасность и конфиденциальность», но последствия являются более тревожными, чем предполагает их академический язык. «Агенты ОС сталкиваются с этими рисками, особенно учитывая его широкие приложения для персональных устройств с пользовательскими данными», — пишут они.
Методы атаки, которые они документируют, читаются как кошмар кибербезопасности. «Интернет -косвенная инъекция» позволяет вредоносным актерам внедрять скрытые инструкции на веб -страницах, которые могут захватить поведение агента искусственного интеллекта. Еще более касающимися «атак в инъекциях окружающей среды», где, казалось бы, безобидный веб -контент может обмануть агентов в кражу пользовательских данных или выполнение несанкционированных действий.
Рассмотрим последствия: агент искусственного интеллекта с доступом к вашей корпоративной электронной почте, финансовых системам и базам данных клиентов может манипулировать тщательно созданной веб -страницей для экстрафильтрата конфиденциальной информации. Традиционные модели безопасности, построенные вокруг людей, которые могут обнаружить очевидные попытки фишинга, разрушаются, когда «пользователь» — это система ИИ, которая по -разному обрабатывает информацию.
Опрос раскрывает о разрыве в готовности. В то время как общие рамки безопасности существуют для агентов искусственного интеллекта, «исследования по защите средств, специфичные для агентов ОС, остаются ограниченными». Это не просто академическая проблема — это непосредственная задача для любой организации с учетом развертывания этих систем.
Проверка реальности: нынешние агенты ИИ все еще борются со сложными цифровыми задачами
Несмотря на ажиотаж, окружающий эти системы, анализ опроса показателей производительности выявляет значительные ограничения, которые выравнивают ожидания для немедленного широкого распространения.
Показатели успеха резко различаются по разным задачам и платформам. Некоторые коммерческие системы достигают успешных показателей выше 50% на определенных критериях — впечатляюще для зарождающейся технологии — но борются с другими. Исследователи классифицируют задачи оценки на три типа: базовое «заземление графического интерфейса» (понимание элементов интерфейса), «поиск информации» (поиск и извлечение данных) и сложные «агентные задачи» (многоэтапные автономные операции).
Схема рассказывает: текущие системы преуспевают в простых, четко определенных задачах, но колеблются, когда сталкиваются с такими сложными, зависимыми от контекста рабочих процессами, которые определяют большую часть современной работы знаний. Они могут надежно нажать на конкретную кнопку или заполнить стандартную форму, но бороться с задачами, которые требуют устойчивых рассуждений или адаптации к неожиданным изменениям интерфейса.
Этот разрыв в производительности объясняет, почему ранние развертывания фокусируются на узких задачах с большим объемом, а не на автоматизации общего назначения. Технология еще не готова заменить человеческое суждение в сложных сценариях, но она все чаще способна обрабатывать обычные цифровые занятости.

Что происходит, когда агенты искусственного интеллекта учатся настраивать себя для каждого пользователя
Возможно, самая интригующая-и потенциально преобразующая-проблема, выявленная в опросе, включает в себя то, что исследователи называют «персонализацией и самоэволюцией». В отличие от сегодняшних помощников искусственного интеллекта, которые рассматривают каждое взаимодействие как независимые, будущие агенты ОС должны будут учиться на взаимодействии с пользователями и адаптироваться к индивидуальным предпочтениям с течением времени.
«Разработка персонализированных агентов ОС была давней целью в исследованиях искусственного интеллекта»,-пишут авторы. «Ожидается, что личный помощник будет постоянно адаптироваться и обеспечить улучшенный опыт, основанный на индивидуальных пользовательских предпочтениях».
Эта возможность может в корне изменить то, как мы взаимодействуем с технологиями. Представьте себе агента искусственного интеллекта, который изучает ваш стиль написания электронной почты, понимает ваши календарные предпочтения, знает, какие рестораны вы предпочитаете, и могут принимать все более сложные решения от вашего имени. Потенциальный рост производительности огромна, но также и последствия для конфиденциальности.
Технические проблемы существенны. Опрос указывает на необходимость лучших мультимодальных систем памяти, которые могут обрабатывать не только текст, но и изображения и голос, представляющие «значительные проблемы» для текущей технологии. Как создать систему, которая помнит ваши предпочтения, не создавая всестороннюю запись наблюдения за вашей цифровой жизнью?
Для технологических руководителей, оценивающих эти системы, эта задача персонализации представляет собой как наибольшую возможность, так и наибольший риск. Организации, которые решают его в первую очередь, получат значительные конкурентные преимущества, но последствия для конфиденциальности и безопасности могут быть серьезными, если они будут работать плохо.
Гонка по созданию помощников искусственного интеллекта, которые могут по -настоящему работать так же, как человеческие пользователи, быстро усиливается. Хотя фундаментальные проблемы, связанные с безопасностью, надежностью и персонализацией, остаются нерешенными, траектория ясна. Исследователи поддерживают разработки отслеживания репозитория с открытым исходным кодом, признавая, что «агенты ОС по-прежнему находятся на ранних стадиях развития» с «быстрыми достижениями, которые продолжают вводить новые методологии и приложения».
Вопрос не в том, будут ли агенты ИИ преобразовать то, как мы взаимодействуем с компьютерами — это готовы ли мы к последствиям, когда они это сделают. Окно для того, чтобы получить правильные фреймворки безопасности и конфиденциальности, сужается так же быстро, как и технология.
Источник