TG Telegram Group & Channel
Агенты ИИ | AGI_and_RL | United States America (US)
Create: Update:

Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws

Forwarded from rizzearch
Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Агенты ИИ | AGI_and_RL








Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)