TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

In the meantime another hot news.

Microsoft опубликовал работу про прикольную мультимодальную языковую модель (Multimodal Large Language Model, MLLM) под названием Kosmos-1. Мультимодальность в том, что кроме текста на вход модель может принимать картинки и звук (в текущей версии только картинки), и решать множество разных задач, включая image captioning, OCR-free NLP, мультимодальный диалог, visual question answering, классификацию изображений по инструкциям.

Language Is Not All You Need: Aligning Perception with Language Models
https://arxiv.org/abs/2302.14045

In the meantime another hot news.

Microsoft опубликовал работу про прикольную мультимодальную языковую модель (Multimodal Large Language Model, MLLM) под названием Kosmos-1. Мультимодальность в том, что кроме текста на вход модель может принимать картинки и звук (в текущей версии только картинки), и решать множество разных задач, включая image captioning, OCR-free NLP, мультимодальный диалог, visual question answering, классификацию изображений по инструкциям.

Language Is Not All You Need: Aligning Perception with Language Models
https://arxiv.org/abs/2302.14045
🔥17👍2


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)