[Google] PaLM-E: An Embodied Multimodal Language Model
Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence
Статья: https://arxiv.org/abs/2303.03378
Сайт с видео: https://palm-e.github.io/
Пост: https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html
Gato отскейлили, но сделал это не DeepMind.
Гугл расширил свою большую (540B) языковую модель PaLM (https://arxiv.org/abs/2204.02311) на картиночную модальность + модальности для сенсоров и действий и назвал полученную модель PaLM-E (Embodied). В чём-то я бы даже сказал это больше похоже на их же отскейленную картиночно-текстовую PaLI (https://hottg.com/gonzo_ML/1085) с добавлением модальности для действий робота. И ещё больше это похоже на отскейленную Gato (https://hottg.com/gonzo_ML/966) от DeepMind (Gato был всего на 1B с копейками).
В итоге самая крупная модель PaLM-E на 562B параметров, на данный момент самая большая картиночно-языковая модель. Дофига для dense модели, конечно. Это GPT-подобная декодерная модель, генерирующая выходные токены авторегрессионно.
Модель заявлена как embodied, так как сенсорная модальность сливается с языковой и тем самым создаётся связь между словами и перцептами. То есть как бы решается большая проблема grounding’а символов, они не просто какие-то сложные корреляции между самими собой, а связаны с визуальными и сенсорными данными из реального мира. Мне лично это всегда казалось важной темой, в чисто языковые модели я не очень верю, особенно осознавая, как много физической интуиции закодировано в нашем опыте и просвечивает в языке. Для меня откровением в какой-то момент была книга Лакоффа и Джонсона “Метафоры, которыми мы живём” (Metaphors We Live By). Хотя, наверное, из языка таки какая-то значимая часть таких вещей восстанавливается через те самые корреляции.
Бэкбон всей модели это предобученная языковая модель PaLM (540B). В неё теми же токенами добавляются картинки через ViT (22B, https://hottg.com/gonzo_ML/434), а также закодированные в виде последовательности векторов непрерывные наблюдения. Всё сводится к тому же латентному пространству, в котором живут эмбеддинги текстовых токенов. На входе модели таким образом оказывается мультимодальное предложение, например, “Q: What happened between <img 1> and <img 2>?“, где тегами в данном случае помечены картиночные эмбеддинги (из ViT).
Выход модели чисто текстовый, и если там появляются команды роботу, то они тоже текстом. Дальше при необходимости подразумевается наличия какого-то низкоуровневого планировщика, который может перевести эти текстовые команды в низкоуровневые действия. С этой точки зрения PaLM-E выступает в роли высокоуровневой полиси, контролирующей низкоуровневые полиси.
ViT, кстати, это свежий (https://arxiv.org/abs/2302.05442) гигантский ViT, которого ещё не было. Самый большой до этого был ViT-e (enormous) на 4B из работы про PaLI. Для нового отдельного эпитета не нашлось и его назвали просто ViT-22B. Работа показала, что скейлить есть куда, и кажется это ещё не предел, насыщения не видно.
Главный вопрос в целом это как инжектить в модель непрерывные наблюдения. Для текстовых токенов в PaLM есть словарь в 256k. Для непрерывных модальностей обучается энкодер из родного непрерывного пространства в последовательность векторов пространства эмбеддингов. Одно наблюдение обычно переходит в несколько векторов, и размещается в окружении эмбеддингов токенов текста, где надо (а не в фиксированных позициях).
Проще всего с векторами, описывающими состояние робота или какого-то объекта. Такие штуки просто мапятся через MLP в пространство эмбеддингов.
>>Click here to continue<<
