Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»Его дисс называется
The Illusion of the Illusion of Thinking, и
Opus в
нем числится первым из двух авторов.
Вот эта папира, лежит на arxiv.
Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:
1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.
2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing
с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».
3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.
Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025
☠️