GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!
СКАЧАТЬ
В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.
В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.
От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.
Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
>>Click here to continue<<
