TG Telegram Group & Channel
Neural Networks | Нейронные сети | United States America (US)
Create: Update:

✔️ Визуализация 2х архитектур нейронных сетей: классический «ванильный» Transformer (слева) и вариант с «Mixture of Experts» (справа).

В обоих случаях есть базовые элементы вроде входных эмбеддингов, механизмов самовнимания (self-attention) и последовательного наложения блоков (N слоёв), но в «Mixture of Experts» внутри каждого блока появляется «router» (маршрутизатор).

Этот маршрутизатор решает, какие «эксперты» (специализированные подмодули) должны обработать текущие данные.

Таким образом, в отличие от обычного Transformer’а, где у нас один набор весов на слой, в «Mixture of Experts» несколько разных «экспертов» конкурируют или дополняют друг друга для более гибкой и точной обработки информации.

✔️ Визуализация 2х архитектур нейронных сетей: классический «ванильный» Transformer (слева) и вариант с «Mixture of Experts» (справа).

В обоих случаях есть базовые элементы вроде входных эмбеддингов, механизмов самовнимания (self-attention) и последовательного наложения блоков (N слоёв), но в «Mixture of Experts» внутри каждого блока появляется «router» (маршрутизатор).

Этот маршрутизатор решает, какие «эксперты» (специализированные подмодули) должны обработать текущие данные.

Таким образом, в отличие от обычного Transformer’а, где у нас один набор весов на слой, в «Mixture of Experts» несколько разных «экспертов» конкурируют или дополняют друг друга для более гибкой и точной обработки информации.
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Neural Networks | Нейронные сети






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)