Модель Meta New World позволяет роботам манипулировать объектами в средах, с которыми они никогда не сталкивались раньше

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

В то время как крупные языковые модели (LLMS) освоили текст (и другие модальности в некоторой степени), им не хватает физического «здравого смысла» для работы в динамичных, реальных средах. Это ограничило развертывание ИИ в таких областях, как производство и логистика, где понимание причины и следствия имеют решающее значение.

Последняя модель Meta, V-JEPA 2, делает шаг к преодолению этого разрыва, изучая мировую модель из видео и физических взаимодействий.

V-JEPA 2 может помочь создать приложения для искусственного интеллекта, которые требуют прогнозирования результатов и действий по планированию в непредсказуемых условиях со многими случаями. Этот подход может обеспечить четкий путь к более способным роботам и расширенной автоматизации в физической среде.

Как «мировая модель» учится планировать

Люди развивают физическую интуицию в раннем возрасте, наблюдая за их окружением. Если вы видите брошенный мяч, вы инстинктивно знаете его траекторию и можете предсказать, где он приземлится. V-JEPA 2 изучает аналогичную «мировую модель», которая представляет собой внутреннее моделирование системы ИИ о том, как работает физический мир.

Модель построена на трех основных возможностях, которые необходимы для предпринимаемых приложений: понимание того, что происходит в сцене, прогнозируя, как сцена будет изменяться в зависимости от действия, и планирование последовательности действий для достижения определенной цели. Как заявляет Meta в своем блоге, его «долгосрочное видение заключается в том, что мировые модели позволят агентам ИИ планировать и разум в физическом мире».

Архитектура модели, называемая предсказательной архитектурой, встроенной видео, состоит из двух ключевых частей. «Энкодер» смотрит видеоклип и конденсирует его в компактное числовое резюме, известное как внедрение. Это вкладывание отражает важную информацию об объектах и их отношениях на сцене. Второй компонент, «предиктор», затем принимает это резюме и представляет, как будет развиваться сцена, генерируя предсказание того, как будет выглядеть следующее резюме.

V-JEPA состоит из энкодера и предиктора (источник: Meta Blog)

Эта архитектура является последней эволюцией Framework JEPA, которая впервые была применена к изображениям с I-JEPA, и теперь продвигается к видео, демонстрируя последовательный подход к созданию мировых моделей.

В отличие от генеративных моделей искусственного интеллекта, которые пытаются предсказать точный цвет каждого пикселя в будущем кадре-вычислительно интенсивная задача-V-JEPA 2 работает в абстрактном пространстве. Он фокусируется на прогнозировании высокоуровневых функций сцены, таких как позиция и траектория объекта, а не на ее текстуру или фоновые детали, что делает ее гораздо более эффективной, чем другие более крупные модели с 1,2 миллиарда параметров.

Это приводит к снижению вычислительных затрат и делает его более подходящим для развертывания в реальных условиях.

Учиться на наблюдениях и действиях

V-JEPA 2 обучается на двух этапах. Во-первых, он создает свое основополагающее понимание физики посредством самоотверженного обучения, наблюдая за более чем миллион часов немеченых интернет-видео. Просто наблюдая, как объекты движутся и взаимодействуют, он разрабатывает мировую модель общего назначения без какого-либо человеческого руководства.

На втором этапе эта предварительно обученная модель точно настроена на небольшом специализированном наборе данных. Обработка всего 62 часа видео, показывающего задачи, выполняющие робота, наряду с соответствующими командами управления, V-JEPA 2 учится подключать конкретные действия к своим физическим результатам. Это приводит к модели, которая может планировать и контролировать действия в реальном мире.

V-JEPA двухэтапный тренировочный трубопровод (источник: мета)

Это двухэтапное обучение обеспечивает критическую возможность для реальной автоматизации: планирование роботов с нулевым выстрелом. Робот, основанный на V-JEPA 2, может быть развернут в новой среде и успешно манипулировать объектами, с которыми он никогда не сталкивался раньше, без необходимости переподготовки для этой конкретной обстановки.

Это значительный прогресс по сравнению с предыдущими моделями, которые требовали учебных данных точный Робот и окружающая среда, где они будут работать. Модель была обучена набору данных с открытым исходным кодом, а затем успешно развернута на разных роботах в Meta’s Labs.

Например, для выполнения задачи, подобной подборке объекта, роботу дается целевой образ желаемого результата. Затем он использует предиктор V-JEPA 2, чтобы внутренне моделировать диапазон возможных следующих движений. Он оценивает каждое воображаемое действие, основываясь на том, насколько близко оно приближается к цели, выполняет максимальное рейтинг и повторяет процесс, пока задача не будет завершена.

Используя этот метод, модель достигла показателей успеха от 65% до 80% по задачам выбора и места с незнакомыми объектами в новых настройках.

Реальное влияние физических рассуждений

Эта способность планировать и действовать в новых ситуациях имеет прямые последствия для бизнес -операций. В логистике и производстве он позволяет создавать более адаптируемые роботы, которые могут обрабатывать изменения в продуктах и складах без обширного перепрограммирования. Это может быть особенно полезно, поскольку компании изучают развертывание гуманоидных роботов на фабриках и сборочных линиях.

Та же мировая модель может привести к модели очень реалистичных цифровых близнецов, позволяя компаниям моделировать новые процессы или обучать других ИИ в физически точной виртуальной среде. В промышленных условиях модель может отслеживать видеопроводы машин и, основываясь на его изученном понимании физики, предсказывают проблемы безопасности и неудачи, прежде чем они произойдут.

Это исследование является ключевым шагом к тому, что Meta Calls «Advanced Machine Intelligence (AMI)», где системы ИИ могут «узнать о мире, как это делают люди, планировать, как выполнять незнакомые задачи и эффективно адаптироваться к постоянно меняющемуся миру вокруг нас».

Meta выпустила модель и свою учебную код и надеется «построить широкое сообщество вокруг этого исследования, продвигая прогресс к нашей конечной цели разработки мировых моделей, которые могут трансформировать способ взаимодействия ИИ с физическим миром».

Что это значит для тех, кто принимает технические решения предприятия

V-JEPA 2 приближает робототехнику ближе к программной модели, которую облачные команды уже распознают: перед поездкой один раз, развертывание в любом месте. Поскольку модель изучает общую физику из публичного видео и нуждается в нескольких десятках часов кадров, специфичных для задачи, предприятия могут сократить цикл сбора данных, который обычно затягивает пилотные проекты. С практической точки зрения вы можете прототип робота с выбора и места на доступном настольном руке, а затем набрать ту же политику на промышленную установку на заводском этаже, не собирая тысячи свежих образцов или написав пользовательские сценарии движения.

Более низкие накладные расходы также изменяют уравнение стоимости. При 1,2 млрд. Параметров V-JEPA 2 удобно вписывается в один высококачественный графический процессор, а его абстрактные цели прогнозирования снижают нагрузку на выводы. Это позволяет командам запускать управление с закрытым контуром или на краю, избегая задержки облака и головных болей в соответствии с потоковым видео за пределами завода. Бюджет, который когда -то пошел на массовые вычислительные кластеры, может вместо этого финансировать дополнительные датчики, избыточность или более быстрые циклы итерации.

Источник

Как «мировая модель» учится планировать

Учиться на наблюдениях и действиях

Реальное влияние физических рассуждений

Что это значит для тех, кто принимает технические решения предприятия

Насколько важна объяснение? Применение принципов клинических испытаний к тестированию безопасности ИИ

SpaceAI

Рекомендуем

Оставить комментарий Отменить ответ