In the meantime another hot news.
Microsoft опубликовал работу про прикольную мультимодальную языковую модель (Multimodal Large Language Model, MLLM) под названием Kosmos-1. Мультимодальность в том, что кроме текста на вход модель может принимать картинки и звук (в текущей версии только картинки), и решать множество разных задач, включая image captioning, OCR-free NLP, мультимодальный диалог, visual question answering, классификацию изображений по инструкциям.
Language Is Not All You Need: Aligning Perception with Language Models
https://arxiv.org/abs/2302.14045
>>Click here to continue<<