🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте
Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.
Что прокачали:
🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.
📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько ссылок, а в контексте может содержаться несколько документов, и модель будет работать с ними осмысленно.
📽 Видео по ссылке
С VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.
🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.
⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.
🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.
>>Click here to continue<<