Я тут упоминал, что в рамках курса по AI Alignment решил копнуть немного в сторону mech interp (https://hottg.com/gonzo_ML/3200) и сделать нанорисёч на базе Gemma 2B. Вычленить какую-то цепь (circuit) времени не было, но немного успел поиграться с выкидыванием слоёв и обнаружил неожиданный для себя результат.
Если вкратце, то наверное пара вещей:
1. Все 26 слоёв декодера чем-то занимаются, от первого до последнего, эмбеддинги даже визуально меняются. Эту картинку приводил в прошлый раз. При этом опять же на глаз видно несколько групп слоёв с похожими паттернами активаций. Что именно они там делают, пока хз.
2. Если выкидывать слои, то определённо есть более критичные, и что неожиданно, кроме понятного критичного в начале, есть неожиданные критичные в середине, возможно, на границе тех самых визуально выделяемых групп. Интересно, что в них такого.
Может, конечно, это просто артефакт конкретного эксперимента, датасета и модели, но может и нет.
Написал про это здесь:
https://gonzoml.substack.com/p/not-all-layers-are-equal
Colab ноутбук для тех, кто захочет продолжить изыскания и покопаться сам, здесь:
https://colab.research.google.com/drive/1Dita8PWjxc_nPjOKCGKyuv7tVamZIc-h?usp=sharing
Картинка с "важностью" слоёв ниже.
>>Click here to continue<<