TG Telegram Group & Channel
Машиннное обучение | Наука о данных Библиотека | United States America (US)
Create: Update:

🧠 Как обучать ИИ рассуждать не решая задачи? Новый подход — обучение через объяснение, а не через решение.

📄 Исследование: *Reinforcement Learning Teachers of Test Time Scaling*

В нём предлагается заменить классическую схему обучения LLM, в которой модель-учитель решает задачи, на схему, где учитель учится объяснять.

📌 Что изменилось:

● В обычных системах (например, DeepSeek R1) модель-учитель обучается с нуля решать сложные задачи и только затем обучает модель-студента. Это требует больших вычислений, RL-процедур и жёсткой фильтрации.

● В новой системе учитель не решает, а объясняет.
Он получает вопрос и правильный ответ, и его задача — сгенерировать понятное пошаговое объяснение, которое поможет модели самостоятельно дойти до верного решения.

● Обратная связь строится на эффективности объяснения — насколько хорошо модель, обученная на этих объяснениях, решает задачи.

🔁 Это меняет всё:
→ Учителя можно делать компактными (7B параметров вместо сотен миллиардов)
→ Их не нужно обучать "решать" — только "объяснять"
→ Обучение становится дешевле, быстрее и ближе к человеческому стилю преподавания

📊 Результаты:
● Учителя на 7B превосходят DeepSeek R1 (671B) в обучении reasoning-задач
— 26% точности у обучаемой модели против 19% у студента, обученного на DeepSeek
— Даже обучаемые модели в 32B обучаются лучше (38% против 34%)

🧠 Вывод:
ИИ, способный объяснять, обучает эффективнее, чем ИИ, решающий задачи в лоб.
Меньшие модели, сфокусированные на обучении, становятся реальной альтернативой гигантским LLM — дешевле, быстрее и ближе к человеку.

🔗 Подробнее

🧠 Как обучать ИИ рассуждать не решая задачи? Новый подход — обучение через объяснение, а не через решение.

📄 Исследование: *Reinforcement Learning Teachers of Test Time Scaling*

В нём предлагается заменить классическую схему обучения LLM, в которой модель-учитель решает задачи, на схему, где учитель учится объяснять.

📌 Что изменилось:

● В обычных системах (например, DeepSeek R1) модель-учитель обучается с нуля решать сложные задачи и только затем обучает модель-студента. Это требует больших вычислений, RL-процедур и жёсткой фильтрации.

● В новой системе учитель не решает, а объясняет.
Он получает вопрос и правильный ответ, и его задача — сгенерировать понятное пошаговое объяснение, которое поможет модели самостоятельно дойти до верного решения.

● Обратная связь строится на эффективности объяснения — насколько хорошо модель, обученная на этих объяснениях, решает задачи.

🔁 Это меняет всё:
→ Учителя можно делать компактными (7B параметров вместо сотен миллиардов)
→ Их не нужно обучать "решать" — только "объяснять"
→ Обучение становится дешевле, быстрее и ближе к человеческому стилю преподавания

📊 Результаты:
● Учителя на 7B превосходят DeepSeek R1 (671B) в обучении reasoning-задач
— 26% точности у обучаемой модели против 19% у студента, обученного на DeepSeek
— Даже обучаемые модели в 32B обучаются лучше (38% против 34%)

🧠 Вывод:
ИИ, способный объяснять, обучает эффективнее, чем ИИ, решающий задачи в лоб.
Меньшие модели, сфокусированные на обучении, становятся реальной альтернативой гигантским LLM — дешевле, быстрее и ближе к человеку.

🔗 Подробнее


>>Click here to continue<<

Машиннное обучение | Наука о данных Библиотека






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)