TG Telegram Group & Channel
Russian OSINT | United States America (US)
Create: Update:

🧠 AGI: «Быть или не быть, вот в чём вопрос» [ЧАСТЬ 1]

Недавняя публикация Apple «The Illusion of Thinking» спровоцировала один из самых непростых научных споров за последнее время в сфере ИИ, вызвав широкий резонанс в экспертном сообществе. 🤖 Как мы помним, ML-исследователи и ученые из Apple попытались представить доказательства фундаментальных ограничений современных ИИ-моделей (LRM).

Попытаемся изучить все аргументы ЗА и ♋️ПРОТИВ.

🍏Позиция Apple:

Парадокс в том, что при решении задач в головоломках, сложность которых постепенно увеличивается (например, головоломка «Переправа через реку» с увеличением числа участников), LRM достигают пика cвоей производительности, после чего производительность уходит не в плато, а падает. То есть происходит «коллапс в рассуждениях» и модели "cдаются/капитулируют". Они начинают использовать значительно меньше вычислительных ресурсов (токенов для «размышлений») и при этом систематически терпят неудачу в решении задач. Исходя из логики исследователей, если бы LRM умели по-настоящему 🧠"рассуждать", то количество используемых токенов продолжало бы расти пропорционально сложности задачи, пока ИИ не упрётся в технический лимит (потолок).

Просто о сложном: например, студент получив нерешаемый билет, смотрит на него, и понимает, что не справится. Он паникует и чиркает пару неверных формул на первой строчке, а затем сдаёт пустой лист преподавателю.

По мнению Apple, мы наблюдаем не просто ошибку, а свидетельство фундаментального недостатка ИИ-моделей в их архитектуре, который удалось выявить благодаря контролируемым "стерильным головоломкам". Более того, утверждается, что LRM не обладают масштабируемым механизмом мышления. Да, LRM помогают в повседневных делах, написании текста и решении различных логических задач на короткой и средней дистанции, но лишены "разума". ИИ-модели = прекрасные имитаторы, помощники, но они не могут работать с новизной и создавать новое из-за своих фундаментальных ограничений.

😱 Критики:

Лоусен из Open Philanthropy и Anthropic (🈁Claude в качестве соавтора?) пытаются привести контраргумент: «коллапс рассуждений» во многом объясняется превышением лимита токенов. Модель не «сдается», а всего лишь упирается в технический потолок. Идёт столкновение с жёстким техническим ограничением.

Лоусен справедливо делает замечание в Apple на использование неразрешимых головоломок. Исследователи Apple запрограммировали свой автоматический скрипт так, что любой ответ, не содержащий последовательность ходов к решению (которой не существует), считался провалом (оценка «ноль»). Таким образом, они наказывали модель за проявление логики. Включение таких задач в тест и их неверная оценка привели к искусственному занижению общего балла ИИ. Критика Лоусена абсолютно справедлива.

В одном из примеров Лоусен изменил постановку задачи, попросив ИИ-модель не перечислять все шаги (думать), а вместе этого написать программу (код), которая решает саму головоломку. ИИ-модели, которые «провалили» тест в исследовании Apple на 8-10 дисках в головоломке "Башня Ханоя", успешно написали код, который решил задачу для 15 и более дисков.
--------------------------

Менее искусные в аргументах критики попытались на площадке🦆 сместить фокус внимания с самого исследования, например, на рыночные позиции Apple, пытаясь уколоть корпорацию за то, что те не смогли создать свои собственные ИИ-модели в противовес ⭕️ ChatGPT, 🈁 Claude, ❗️Gemini, ❗️ Grok, поэтому и бесятся, критикуя современные LRM. Слабый аргумент, не имеющий прямого отношения к самому исследованию.

🧠 AGI: «Быть или не быть, вот в чём вопрос» [ЧАСТЬ 1]

Недавняя публикация Apple «The Illusion of Thinking» спровоцировала один из самых непростых научных споров за последнее время в сфере ИИ, вызвав широкий резонанс в экспертном сообществе. 🤖 Как мы помним, ML-исследователи и ученые из Apple попытались представить доказательства фундаментальных ограничений современных ИИ-моделей (LRM).

Попытаемся изучить все аргументы ЗА и ♋️ПРОТИВ.

🍏Позиция Apple:

Парадокс в том, что при решении задач в головоломках, сложность которых постепенно увеличивается (например, головоломка «Переправа через реку» с увеличением числа участников), LRM достигают пика cвоей производительности, после чего производительность уходит не в плато, а падает. То есть происходит «коллапс в рассуждениях» и модели "cдаются/капитулируют". Они начинают использовать значительно меньше вычислительных ресурсов (токенов для «размышлений») и при этом систематически терпят неудачу в решении задач. Исходя из логики исследователей, если бы LRM умели по-настоящему 🧠"рассуждать", то количество используемых токенов продолжало бы расти пропорционально сложности задачи, пока ИИ не упрётся в технический лимит (потолок).

Просто о сложном: например, студент получив нерешаемый билет, смотрит на него, и понимает, что не справится. Он паникует и чиркает пару неверных формул на первой строчке, а затем сдаёт пустой лист преподавателю.

По мнению Apple, мы наблюдаем не просто ошибку, а свидетельство фундаментального недостатка ИИ-моделей в их архитектуре, который удалось выявить благодаря контролируемым "стерильным головоломкам". Более того, утверждается, что LRM не обладают масштабируемым механизмом мышления. Да, LRM помогают в повседневных делах, написании текста и решении различных логических задач на короткой и средней дистанции, но лишены "разума". ИИ-модели = прекрасные имитаторы, помощники, но они не могут работать с новизной и создавать новое из-за своих фундаментальных ограничений.

😱 Критики:

Лоусен из Open Philanthropy и Anthropic (🈁Claude в качестве соавтора?) пытаются привести контраргумент: «коллапс рассуждений» во многом объясняется превышением лимита токенов. Модель не «сдается», а всего лишь упирается в технический потолок. Идёт столкновение с жёстким техническим ограничением.

Лоусен справедливо делает замечание в Apple на использование неразрешимых головоломок. Исследователи Apple запрограммировали свой автоматический скрипт так, что любой ответ, не содержащий последовательность ходов к решению (которой не существует), считался провалом (оценка «ноль»). Таким образом, они наказывали модель за проявление логики. Включение таких задач в тест и их неверная оценка привели к искусственному занижению общего балла ИИ. Критика Лоусена абсолютно справедлива.

В одном из примеров Лоусен изменил постановку задачи, попросив ИИ-модель не перечислять все шаги (думать), а вместе этого написать программу (код), которая решает саму головоломку. ИИ-модели, которые «провалили» тест в исследовании Apple на 8-10 дисках в головоломке "Башня Ханоя", успешно написали код, который решил задачу для 15 и более дисков.
--------------------------

Менее искусные в аргументах критики попытались на площадке🦆 сместить фокус внимания с самого исследования, например, на рыночные позиции Apple, пытаясь уколоть корпорацию за то, что те не смогли создать свои собственные ИИ-модели в противовес ⭕️ ChatGPT, 🈁 Claude, ❗️Gemini, ❗️ Grok, поэтому и бесятся, критикуя современные LRM. Слабый аргумент, не имеющий прямого отношения к самому исследованию.
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Russian OSINT






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)