Вдогонку к этой статье хотела прикрепить твит jack morris (очень люблю его аккаунт). Он говорит, что очень много чего понял про дип лернинг из статьи Pretraining Without Attention: авторы потратили кучу времени, чтобы построить архитектуру, не похожую на Трансформер (state space model + sequence routing), перепробовали кучу разных конфигураций, чтобы в итоге выяснить, что при равном количестве параметров они примерно с Трансформерами сравнялись
Из этого он постулирует, что при достаточном количестве параметров и когда things are reasonably well-conditioned (достаточно нелинейности и скип-коннекшенов), то архитектура на самом деле не имеет никакого значения
Если же верна предпосылка The Platonic Representation Hypothesis, и все модели независимо от архитектуры сходятся к одной какой-то репрезентации реальности, то кажется что “качество” такой репрезентации зависит от FLOPs, и не особо от чего-то еще. Если это и есть верхний порог того, насколько хорошо мы можем аппроксимировать (например, если лосс LLaMA 3 все же однажды перестанет падать после 15-ого триллиона токенов), то стоит ли нам задуматься, аппроксимируем ли мы нужную функцию?
В конце The Platonic Representation Hypothesis авторы отмечают, что для специализированного ИИ может быть не оптимально моделировать реальность вслед за человеком, если он может найти какой-то shortcut или какие-то эффективные репрезентации, оторванные от реальности (такой, какой ее себе представляем мы), чтобы решать свои задачи. Нужно ли будет ASI тоже научиться моделировать реальность совсем не так, как мы, и выучить для этого какую-то совсем другую функцию?
>>Click here to continue<<

