Create: Update:
Google показали вариант Gemini, натасканный на робототехнику
В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).
Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.
На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.
При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.
Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).
Техрепорт | Блогпост с видео-примерами
В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).
Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.
На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.
При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.
Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).
Техрепорт | Блогпост с видео-примерами
Google показали вариант Gemini, натасканный на робототехнику
В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).
Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.
На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.
При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.
Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).
Техрепорт | Блогпост с видео-примерами
В основе Gemini Robotics обычная Gemini 2, в которую добавили action как дополнительную выходную модальность и дообучили. Таким образом, это уже не просто LM, а VLA (vision-language-action).
Также показали вариант Gemini Robotics ER, то есть модель с физическими размышлениями (embodied reasoning). Это значит, что она не только видит физический мир и действует, а видит, думает и действует. Например, может порассуждать, как именно взять кружку, чтобы не пролить воду.
На бенчмарках – успех. Gemini Robotics почти в два раза перепрыгнула прошлую SOTA. То есть это лучшая на данный момент универсальная VLM для робототехники.
При этом на тестах с самими роботами видно, что модель может обобщаться на принципиально новые задачи, у нее хорошо развита мелкая моторика, и она легко взаимодействует с человеком и меняет свои планы динамически в зависимости от состояния среды.
Посмотрите, как ловко составляет слова из буковок, складывает оригами и убирается (обратите внимание, что модель работает и с гуманоидом, и с робо-руками, и с другими видами железяк).
Техрепорт | Блогпост с видео-примерами
🔥99❤12⚡8👍7
>>Click here to continue<<
Data Secrets