TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

Google показали вариант Gemini, натасканный на робототехнику

В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).

Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.

На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.

При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.

Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).

Техрепорт | Блогпост с видео-примерами

Google показали вариант Gemini, натасканный на робототехнику

В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).

Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.

На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.

При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.

Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).

Техрепорт | Блогпост с видео-примерами
🔥99128👍7


>>Click here to continue<<

Data Secrets




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)