🧠 Stream-Omni-8B — новая open-source мультимодальная модель от ICTNLP
Модель поддерживает: текст, изображение и аудио, и способна обрабатывать их одновременно в реальном времени — аналогично GPT-4o.
🔍 Основные особенности:
• 🎙️ Поддержка голосового ввода с одновременным выводом текста (ASR + генерация)
• 🖼️ Обработка изображений совместно с текстом и голосом
• 📢 Возможность голосового ответа — модель не просто отвечает текстом, но и озвучивает его
• ⏱️ Реальное стриминговое взаимодействие: модель понимает и отвечает по мере ввода, без задержек
• Лицензия: GPL-3.0
🎯 Для кого эта модель:
• Разработчики мультимодальных агентов и ассистентов
• Исследователи в области real-time interaction и human-AI интерфейсов
• Команды, ищущие open-source альтернативу GPT-4o
📥 Ресурсы:
→ Модель
→ arXiv
>>Click here to continue<<