Действительно ли модели рассуждений «думают» или нет? Apple Research Sparks Lively Debates, ответ

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

В начале этого месяца группа Apple в области машинного обучения вызвала риторический огненный шторм с ее выпуском «Иллюзии мышления», 53-страничного исследовательского документа, в котором утверждается, что так называемые большие модели рассуждений (LRM) или рассуждение крупных языковых моделей (рассуждение LLM), такие как «O Openai» и «O» и Google Gemini-2.5 Pro, и флэш-мышления на самом деле не участвуют в «Независимых» или «Принципах», из которых «мыслит» или «Основные данные», из которых «мыслит» или «Основные данные», из которых «мыслит» или «Принципы, основанные на том, что они знают» из «Основных» или «Обучающихся».

Instead, the authors contend, these reasoning LLMs are actually performing a kind of “pattern matching” and their apparent reasoning ability seems to fall apart once a task becomes too complex, suggesting that their architecture and performance is not a viable path to improving generative AI to the point that it is artificial generalized intelligence (AGI), which OpenAI defines as a model that outperforms humans at most economically valuable work, or superintelligence, AI even умнее, чем люди могут понять.

ACT Now: Приходите обсудить последние достижения LLM и исследования в VB Transform 24-25 июня в SF-ограниченные билеты доступныПолем Зарегистрироваться сейчас

Неудивительно, что статья немедленно широко распространена среди сообщества машинного обучения на X, и начальные реакции многих читателей состояли в том, чтобы заявить, что Apple эффективно опровергает большую часть ажиотажа вокруг этого класса AI: «Apple только что доказало, что модели« рассуждения », такие как Claude, Deepseek-R1 и O3-Mini, на самом деле не приводятся в пост, на самом деле не приводятся в Decen-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben-ruben. «Они просто запоминают закономерности очень хорошо».

Но сегодня появилась новая статья, нахальная название «Иллюзия иллюзии мышления», что важно, в соавторстве с учетом самого рассуждения LLM, Claude Opus 4 и Alex Lawsen, человеческого и независимого исследователя ИИ и технического писателя, которые включают в себя в основе «Армия», в том числе ими, что инициализируют, что инициализируют, что инициализирующие работы в области Applemally. ошибочно.

Хотя мы здесь, в VentureBeat, сами не сами не готовы сказать, что исследователи Apple ошибаются, дебаты, безусловно, были оживленной, и проблема о возможностях LRMS или Doideor LLM по сравнению с человеческим мышлением кажется далеко не решенным.

Как было разработано исследование Apple — и что он нашел

Используя четыре классические проблемы с планированием — Tower of Hanoi, Blocks World, River Crossing and Checkers Jumping — исследователи Apple разработали батарею задач, которые заставляли модели рассуждений планировать несколько ходов вперед и генерировать полные решения.

Эти игры были выбраны для их долгой истории в когнитивной науке и исследованиях искусственного интеллекта и их способности масштабироваться в сложности, поскольку добавляются больше шагов или ограничений. Каждая головоломка требовала, чтобы модели не просто давали правильный окончательный ответ, но и объясняли свое мышление на этом пути, используя подсказку цепочки мыслей.

По мере того, как головоломки увеличились в сложности, исследователи наблюдали постоянное падение точности в нескольких ведущих моделях рассуждений. В самых сложных задачах производительность упала до нуля. Примечательно, что длина внутренних рассуждений моделей, измеряемых количеством жетонов, потраченных на размышление через проблему, также начали сокращаться. Исследователи Apple интерпретировали это как признак того, что модели полностью отказались от решения проблем, как только задачи стали слишком сложными, по сути, «сдаваясь».

Сроки выпуска газеты, опередив ежегодной мировой конференции разработчиков Apple (WWDC), добавило к воздействию. Он быстро стал вирусным по всему X, где многие интерпретировали результаты как громкое признание того, что LLM-генерации текущего поколения все еще являются прославленными автоматическими двигателями, а не мыслителями общего назначения. Это кадрирование, хотя и спорно, привело к большей части первоначальной дискуссии и последовавших дебатов.

Критики направлены на x

Среди наиболее вокальных критиков статьи Apple были ML -исследователь и x пользователь @scailing01 (он же «Лисан Аль Гайб»), который разместил несколько потоков, рассекающих методологию.

В одном широко распространенном посте Лизан утверждал, что команда Apple объединила сбои бюджета токенов с ошибками рассуждений, отметив, что «все модели будут иметь 0 точность с более чем 13 дисками просто потому, что они не могут так много выводить!»

Для таких головоломок, как Tower of Hanoi, подчеркнул, что размер выхода растет в геометрической прогрессии, в то время как контекстные окна LLM остаются фиксированными, написание «Только потому, что башня Ханоя требует больше шагов, чем другие, что требует только квадратично или линейно, больше шагов, не означает, что башня Hanoi более сложный», и убедительно, что модели, такие как Cla, 3-й сон и глубинный, часто становятся убедительно, что модели. или код — но все еще были помечены неправильными.

В другом посте подчеркнулось, что даже разбивая задачу на более мелкие, разлагаемые шаги, ухудшал производительность модели — не потому, что модели не понимали, а потому, что им не хватало памяти о предыдущих шагах и стратегии.

«LLM нуждается в истории и великой стратегии»,-написал он, предполагая, что реальная проблема-размер контекста, а не рассуждения.

Я поднял еще одно важное зерно соли на X: Apple никогда не сравнивала модель производительности против человеческой производительности в одних и тех же задачах. «Я скучаю по нему, или вы не сравнивали LRM с человеческой перфу (Ormance) на (те же задачи? Я спросил исследователей непосредственно в потоке, пометившей авторов газеты. Я также написал им по электронной почте об этом и многих других вопросах, но им еще предстоит ответить.

Другие повторили это мнение, отметив, что решающие проблемы человеческих проблем также колеблется на длинных многоэтапных логических головоломках, особенно без инструментов для ручки и бумаги или средств памяти. Без этого базового уровня утверждение Apple о фундаментальном «рассуждении» кажется неземным.

Несколько исследователей также подвергли сомнению бинарное кадрирование названия и диссертации газеты — определяя жесткую линию между «сопоставлением с образцом» и «рассуждением».

Александр Дория, также известная как Пьер-Карл Ланглайс, тренер LLM в энергоэффективном французском AI Startup Pleias, сказал, что кадрирование скучает по нюансуутверждая, что модели могут изучать частичную эвристику, а не просто соответствовать шаблонам.

Хорошо, я думаю, мне нужно пройти через эту яблочную бумагу.

Моя основная проблема — это кадрирование, которое является супер двоичным: «Способны ли эти модели к обобщаемым рассуждениям, или они используют различные формы сопоставления рисунков?» Или что, если они поймали только подлинную, но частичную эвристику. pic.twitter.com/gze3eg7wlm
— Александр Дория (@dorialexander) 8 июня 2025 года

Этан Моллик, специалист по искусственному искусству в Университете Университета Университета Пенсильвании в Уортонской школе Уортон, назвал идею о том, что LLM «ударяют в стену», сравнивая его с аналогичными утверждениями о «коллапсе моделей», который не вышел.

Между тем, такие критики, как @ArithMoquine, были более циничными, предполагая, что Apple — набирает кривую на LLMS по сравнению с такими соперниками, как Openai и Google, пытаются снизить ожидания », придумывая исследование« как все это подделка и гей и не имеет значения », — они свернули, указывая на репутацию Apple с той плохой исполнением продуктов AI, такими как SIRI.

Короче говоря, в то время как исследование Apple вызвало содержательный разговор о строгости оценки, оно также обнаружило глубокий разрыв из -за того, сколько доверия к показателям в метрик, когда сам тест может быть ошибочным.

Артефакт измерения или потолок?

Другими словами, модели, возможно, поняли головоломки, но закончились «бумагой», чтобы написать полное решение.

«Пределы токенов, а не логика, заморозили модели»,-написал исследователь Карнеги Меллона Рохан Пол в широко распространенной теме, обобщающей последующие тесты.

Тем не менее, не все готовы очистить LRM об заряде. Некоторые наблюдатели отмечают, что исследование Apple по-прежнему выявило три режима производительности-простые задачи, в которых болит дополнительные рассуждения, головоломки среднего уровня, где оно помогает, и случаи высокого раскола, где как стандартный, так и «мыслительный» кратер.

Другие рассматривают дискуссию как корпоративное позиционирование, отмечая, что собственные модели Apple в «Apple Intelligence» следуют соперникам на многих общедоступных лидерах.

Опровержение: «Иллюзия иллюзии мышления»

В ответ на претензии Apple, была выпущена новая статья под названием «Иллюзия иллюзии мышления», была выпущена на Arxiv независимым исследователем и техническим писателем Алексом Алексом Лоусеном некоммерческой открытой благотворительности в сотрудничестве с Claude Opus 4 в Антрии.

В документе непосредственно бросается вызов исходному исследованию, что LLMS терпят неудачу из -за неотъемлемой неспособности рассуждать в масштабе. Вместо этого, опровержение представляет доказательства того, что наблюдаемый коллапс производительности был в значительной степени побочным продуктом тестовой установки, а не истинным пределом рассуждений.

Законы и Клод демонстрируют, что многие из неудач в исследовании Apple связаны с ограничениями токена. Например, в таких задачах, как Башня Ханои, модели должны печатать в геометрической прогрессии, многие шаги — более 32 000 ходов всего за 15 дисков — что приводит их к ударам выходных потолков.

Опровержение указывает, что сценарий оценки Apple наказал эти токеновые выходные выходы как неверные, даже когда модели следовали правильной стратегии решения внутренне.

Авторы также выделяют несколько сомнительных конструкций задач в яблочных тестах. Они отмечают, что некоторые из загадок пересечения реки математически неразрешимы, и все же модельные результаты для этих случаев все еще были оценены. Это также ставит под сомнение вывод о том, что неудачи точности представляют когнитивные ограничения, а не структурные недостатки в экспериментах.

Чтобы проверить свою теорию, Lawsen и Claude провели новые эксперименты, позволяя моделям давать сжатые программные ответы. Когда его попросили вывести функцию LUA, которая могла бы генерировать решение башни Ханоя-развлечь, чем писать каждую ступенчатую линию,-модели внезапно преуспели в гораздо более сложных проблемах. Этот сдвиг в формате полностью исключил коллапс, предполагая, что модели не перестали рассуждать. Они просто не смогли соответствовать искусственной и чрезмерно строгой рубрике.

Почему это важно для лиц, принимающих решения предприятия

В задней части и до начала растущий консенсус: дизайн оценки теперь так же важен, как и дизайн модели.

Требование LRM для перечисления каждого шага может проверять их принтеры больше, чем их планировщики, в то время как сжатые форматы, программные ответы или внешние наборы для царапин дают чистоту чтения на фактической способности рассуждения.

Эпизод также подчеркивает практические ограничения, с которыми сталкиваются разработчики, когда они отправляют агентские системы-контактные окна, выходные бюджеты и составление задач могут сделать или нарушать производительность пользователя.

Для предприятия, принимающих технические решения, строящие заявки на рассуждения LLMS, эта дискуссия более чем академическая. Это поднимает критические вопросы о том, где, когда и как доверять этим моделям в производственных рабочих процессах, особенно когда задачи включают длительные цепочки планирования или требуют точного пошагового вывода.

Если модель, по -видимому, «не удается» в сложной подсказке, проблема может не лежать в его способности рассуждать, но в том, как задача обрамлена, сколько выводов требуется или сколько памяти имеет доступ к модели. Это особенно актуально для промышленности, создающих инструменты, такие как коллеги, автономные агенты или системы поддержки решений, где как интерпретируемость, так и сложность задач могут быть высокими.

Понимание ограничений контекстных окон, бюджетов токенов и рубриков, используемых в оценке, имеет важное значение для надежного проектирования системы. Разработчикам может потребоваться рассмотреть гибридные решения, которые внешние памяти, шаги рассуждения куски или используют сжатые выходы, такие как функции или код вместо полных словесных объяснений.

Самое главное, что противоречие статьи является напоминанием о том, что сравнительный анализ и применение реального мира не одинаковы. Команды предприятия должны быть осторожны с чрезмерным поправкой на синтетические критерии, которые не отражают практические варианты использования, или это непреднамеренно ограничивает способность модели демонстрировать то, что она знает.

В конечном счете, большой вывод для исследователей ML заключается в том, что перед провозглашением вехи ИИ — или некролога — убедится, что сам тест не ставит систему в коробку слишком маленькой, чтобы думать внутри.

Источник

ACT Now: Приходите обсудить последние достижения LLM и исследования в VB Transform 24-25 июня в SF-ограниченные билеты доступныПолем Зарегистрироваться сейчас

Как было разработано исследование Apple — и что он нашел

Критики направлены на x

Артефакт измерения или потолок?

Опровержение: «Иллюзия иллюзии мышления»

Почему это важно для лиц, принимающих решения предприятия

Claude — персональный AI-помощник от Anthropic для естественного диалога

Капча устарела

Рекомендуем

Оставить комментарий Отменить ответ