Оказывается (раскрыл это в 6Кзнаках), кроме DeepSeek R1 за два месяца до его выпуска вели независимые эксперименты с RL и CoT — и сетка simpleRL-reason как и R1 научилась рефлексии, причём без синтетических данных, данных там вообще надо было x50 меньше! Шороху это всё наделало много, экспоненты в падении цен на интеллект продолжают работать. Но есть люди (даже знаменитые, вроде Lehman и Stanley, а также Levin), которые утверждают, что с нейросетками всё плохо, ибо спасает только эволюция и open-endedness — но эволюцию в нейросетях почему-то не замечают.
Выложил слайды для сегодняшнего вебинара, там на восьмом слайде пара картинок из ссылок сегодняшнего поста.
https://ailev.livejournal.com/1751437.html
>>Click here to continue<<
