VILA — это визуальная языковая модель (VLM), предварительно обученная с помощью чередующихся данных изображения-текста в масштабе, что обеспечивает возможности понимания видео и понимания нескольких изображений .
Language: Python
💥Stars: 1.4
📝Forks: 109
https://github.com/NVlabs/VILA
>>Click here to continue<<
