Недавняя публикация Apple «The Illusion of Thinking» спровоцировала один из самых непростых научных споров за последнее время в сфере ИИ, вызвав широкий резонанс в экспертном сообществе.
Попытаемся изучить все аргументы
Парадокс в том, что при решении задач в головоломках, сложность которых постепенно увеличивается (например, головоломка «Переправа через реку» с увеличением числа участников), LRM достигают пика cвоей производительности, после чего производительность уходит не в плато, а падает. То есть происходит «коллапс в рассуждениях» и модели "cдаются/капитулируют". Они начинают использовать значительно меньше вычислительных ресурсов (токенов для «размышлений») и при этом систематически терпят неудачу в решении задач. Исходя из логики исследователей, если бы LRM умели по-настоящему
Просто о сложном: например, студент получив нерешаемый билет, смотрит на него, и понимает, что не справится. Он паникует и чиркает пару неверных формул на первой строчке, а затем сдаёт пустой лист преподавателю.
По мнению Apple, мы наблюдаем не просто ошибку, а свидетельство фундаментального недостатка ИИ-моделей в их архитектуре, который удалось выявить благодаря контролируемым "стерильным головоломкам". Более того, утверждается, что LRM не обладают масштабируемым механизмом мышления. Да, LRM помогают в повседневных делах, написании текста и решении различных логических задач на короткой и средней дистанции, но лишены "разума". ИИ-модели = прекрасные имитаторы, помощники, но они не могут работать с новизной и создавать новое из-за своих фундаментальных ограничений.
Лоусен из Open Philanthropy и Anthropic (
Лоусен справедливо делает замечание в Apple на использование неразрешимых головоломок. Исследователи Apple запрограммировали свой автоматический скрипт так, что любой ответ, не содержащий последовательность ходов к решению (которой не существует), считался провалом (оценка «ноль»). Таким образом, они наказывали модель за проявление логики. Включение таких задач в тест и их неверная оценка привели к искусственному занижению общего балла ИИ. Критика Лоусена абсолютно справедлива.
В одном из примеров Лоусен изменил постановку задачи, попросив ИИ-модель не перечислять все шаги (думать), а вместе этого написать программу (код), которая решает саму головоломку. ИИ-модели, которые «провалили» тест в исследовании Apple на 8-10 дисках в головоломке "Башня Ханоя", успешно написали код, который решил задачу для 15 и более дисков.
--------------------------
Менее искусные в аргументах критики попытались на площадке
>>Click here to continue<<
