🧠 Как обучать ИИ рассуждать не решая задачи? Новый подход — обучение через объяснение, а не через решение.
📄 Исследование: *Reinforcement Learning Teachers of Test Time Scaling*
В нём предлагается заменить классическую схему обучения LLM, в которой модель-учитель решает задачи, на схему, где учитель учится объяснять.
📌 Что изменилось:
● В обычных системах (например, DeepSeek R1) модель-учитель обучается с нуля решать сложные задачи и только затем обучает модель-студента. Это требует больших вычислений, RL-процедур и жёсткой фильтрации.
● В новой системе учитель не решает, а объясняет.
Он получает вопрос и правильный ответ, и его задача — сгенерировать понятное пошаговое объяснение, которое поможет модели самостоятельно дойти до верного решения.
● Обратная связь строится на эффективности объяснения — насколько хорошо модель, обученная на этих объяснениях, решает задачи.
🔁 Это меняет всё:
→ Учителя можно делать компактными (7B параметров вместо сотен миллиардов)
→ Их не нужно обучать "решать" — только "объяснять"
→ Обучение становится дешевле, быстрее и ближе к человеческому стилю преподавания
📊 Результаты:
● Учителя на 7B превосходят DeepSeek R1 (671B) в обучении reasoning-задач
— 26% точности у обучаемой модели против 19% у студента, обученного на DeepSeek
— Даже обучаемые модели в 32B обучаются лучше (38% против 34%)
🧠 Вывод:
ИИ, способный объяснять, обучает эффективнее, чем ИИ, решающий задачи в лоб.
Меньшие модели, сфокусированные на обучении, становятся реальной альтернативой гигантским LLM — дешевле, быстрее и ближе к человеку.
🔗 Подробнее
>>Click here to continue<<
