База про архитектурные особенности современных LLM
📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.
✨Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.
Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост
А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.
Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U
>>Click here to continue<<