TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»

Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.

Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:

1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.

2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».

3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.

Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025 ☠️

Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»

Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.

Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:

1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.

2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».

3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.

Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025 ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Secrets






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)