Тем временем продолжаются эксперименты с автообзорами статей в канале https://hottg.com/gonzo_ML_podcasts.
Из последнего и свежего:
* Статья от Тегмарка и ко про выучивание сильных узких моделей. Для которых правильный прунинг из большой общей модели оказывается лучше дистилляции, а в целом широкие и разнообразные данные таки нужны для более быстрого и качественного выучивания определённых навыков.
* Статья про ризонинг токены где на модельной задаче с поиском A* и лабиринтами показано, что трассировки CoT не обязательно являются достоверным отображением «рассуждений» модели, и «бессмысленные» промежуточные токены могут быть поразительно эффективны.
* Статья про механистичную оценку способностей трансформеров и SSM, показывающая что модели со схожей поведенческой производительностью могут использовать принципиально разные внутренние стратегии.
Поток статей каждый день валится огромный, всё разобрать нереально, так что буду продолжать делать это автоматически для статей, которые любопытны, но не настолько чтобы разбирать вручную. Режим вручную оставлю для самого вкусного.
>>Click here to continue<<
