TG Telegram Group & Channel
Математика Дата саентиста | United States America (US)
Create: Update:

🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax

Forwarded from Machinelearning
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1


>>Click here to continue<<

Математика Дата саентиста








Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)