1. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом, специально подобранном датасете D_experts всего из 3000 с небольшим примеров. Этот датасет тщательно составлен с использованием мощных моделей, таких как O1 от OpenAI и GPT-4o, для генерации и псевдоразметки пошаговых цепочек рассуждений. Поразительно, какое влияние оказывает этот крошечный датасет. Тот факт, что специализированное «зерно», посеянное с помощью такого малого количества примеров, не только выживает, но и процветает после сквозного обучения на огромном корпусе из ~939 тыс. примеров, подчёркивает силу целенаправленных индуктивных смещений. Это наводит на мысль, что путь к лучшим моделям может лежать не только через увеличение объёма данных, но и через *более умные* данные.
2. Этап 2: Обучение роутера. Уже специализированные эксперты замораживаются, и на том же датасете D_experts обучается только роутер, чтобы он научился эффективно делегировать задачи.
3. Этап 3: Сквозное дообучение. Вся модель дообучается на крупномасштабном корпусе для instruction-tuning, таком как TÜLU-3. Ключевой вывод заключается в том, что специализация, заложенная на начальных этапах, не только сохраняется, но и усиливается, демонстрируя надёжность подхода.
Эксперименты в статье наглядно демонстрируют преимущества этого вдохновлённого мозгом подхода, показывая три ключевых прорыва.
📈 Победа в производительности: специализация ведёт к более умной модели Структура, подобная мозгу, — это не просто интеллектуальное любопытство, она напрямую ведёт к созданию более способной модели. Специализированная модель MICRO стабильно превосходит своих неспециализированных аналогов, включая как стандартные плотные модели («No Experts»), так и модульные модели с экспертами общего назначения («General»). Например, модель MICRO на базе OLMO-2-1B достигла среднего балла 38.7 на наборе из семи бенчмарков на рассуждения, превзойдя плотный (37.7) и модульный (37.6) бейзлайны. Это преимущество в производительности сохраняется даже при дообучении на данных из конкретной области, с особенно сильным приростом в out-of-distribution сценариях, что доказывает — структурированный дизайн приводит к ощутимым улучшениям.
🔍 Окно в разум машины: делаем рассуждения прозрачными MICRO делает значительный шаг в сторону от парадигмы «чёрного ящика». Паттерны маршрутизации модели предоставляют ясное окно в её процесс рассуждения, позволяя нам буквально «наблюдать, как модель думает». На математических задачах токены предсказуемо направляются к эксперту Logic, в то время как на задачах, требующих социального понимания, активно задействуется эксперт Social. Для проверки этого авторы использовали остроумную технику, адаптированную из когнитивной нейронауки. Эти «локализаторы» — работающие как целевое фМРТ для языковых моделей, используя контрастные входные данные для выявления избирательно активированных юнитов — успешно обнаружили соответствующие модули-эксперты в модели. Это веское подтверждение того, что специализация модели — не просто ярлык, а функциональная реальность.
🕹 ИИ с панелью управления: направляем поведение по желанию Модульная конструкция даёт беспрецедентный уровень контроля во время инференса. Выборочно отключая (проводя абляцию) определённых экспертов, можно эффективно управлять поведением модели. Например, удаление эксперта Logic резко снижает производительность на математических задачах, в то время как удаление эксперта Social может, как ни странно, дать небольшой прирост в этих же контекстах, что подтверждает их различные функциональные роли. Качественные примеры наглядно иллюстрируют это «управление», показывая, как ответ модели на один и тот же промпт можно сместить от аналитического к эмпатическому, просто сохраняя разные наборы экспертов. Это превращает ИИ из пассивного генератора в интерактивного, управляемого партнёра по рассуждениям.
1. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом, специально подобранном датасете D_experts всего из 3000 с небольшим примеров. Этот датасет тщательно составлен с использованием мощных моделей, таких как O1 от OpenAI и GPT-4o, для генерации и псевдоразметки пошаговых цепочек рассуждений. Поразительно, какое влияние оказывает этот крошечный датасет. Тот факт, что специализированное «зерно», посеянное с помощью такого малого количества примеров, не только выживает, но и процветает после сквозного обучения на огромном корпусе из ~939 тыс. примеров, подчёркивает силу целенаправленных индуктивных смещений. Это наводит на мысль, что путь к лучшим моделям может лежать не только через увеличение объёма данных, но и через *более умные* данные.
2. Этап 2: Обучение роутера. Уже специализированные эксперты замораживаются, и на том же датасете D_experts обучается только роутер, чтобы он научился эффективно делегировать задачи.
3. Этап 3: Сквозное дообучение. Вся модель дообучается на крупномасштабном корпусе для instruction-tuning, таком как TÜLU-3. Ключевой вывод заключается в том, что специализация, заложенная на начальных этапах, не только сохраняется, но и усиливается, демонстрируя надёжность подхода.
Эксперименты в статье наглядно демонстрируют преимущества этого вдохновлённого мозгом подхода, показывая три ключевых прорыва.
📈 Победа в производительности: специализация ведёт к более умной модели Структура, подобная мозгу, — это не просто интеллектуальное любопытство, она напрямую ведёт к созданию более способной модели. Специализированная модель MICRO стабильно превосходит своих неспециализированных аналогов, включая как стандартные плотные модели («No Experts»), так и модульные модели с экспертами общего назначения («General»). Например, модель MICRO на базе OLMO-2-1B достигла среднего балла 38.7 на наборе из семи бенчмарков на рассуждения, превзойдя плотный (37.7) и модульный (37.6) бейзлайны. Это преимущество в производительности сохраняется даже при дообучении на данных из конкретной области, с особенно сильным приростом в out-of-distribution сценариях, что доказывает — структурированный дизайн приводит к ощутимым улучшениям.
🔍 Окно в разум машины: делаем рассуждения прозрачными MICRO делает значительный шаг в сторону от парадигмы «чёрного ящика». Паттерны маршрутизации модели предоставляют ясное окно в её процесс рассуждения, позволяя нам буквально «наблюдать, как модель думает». На математических задачах токены предсказуемо направляются к эксперту Logic, в то время как на задачах, требующих социального понимания, активно задействуется эксперт Social. Для проверки этого авторы использовали остроумную технику, адаптированную из когнитивной нейронауки. Эти «локализаторы» — работающие как целевое фМРТ для языковых моделей, используя контрастные входные данные для выявления избирательно активированных юнитов — успешно обнаружили соответствующие модули-эксперты в модели. Это веское подтверждение того, что специализация модели — не просто ярлык, а функциональная реальность.
🕹 ИИ с панелью управления: направляем поведение по желанию Модульная конструкция даёт беспрецедентный уровень контроля во время инференса. Выборочно отключая (проводя абляцию) определённых экспертов, можно эффективно управлять поведением модели. Например, удаление эксперта Logic резко снижает производительность на математических задачах, в то время как удаление эксперта Social может, как ни странно, дать небольшой прирост в этих же контекстах, что подтверждает их различные функциональные роли. Качественные примеры наглядно иллюстрируют это «управление», показывая, как ответ модели на один и тот же промпт можно сместить от аналитического к эмпатическому, просто сохраняя разные наборы экспертов. Это превращает ИИ из пассивного генератора в интерактивного, управляемого партнёра по рассуждениям.