TG Telegram Group & Channel
GigaDev — разработка GigaChat | United States America (US)
Create: Update:

GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!

СКАЧАТЬ ➡️➡️➡️ GitHub | GitVerse

В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.

В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.

От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.

Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой

➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!

Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot

GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!

СКАЧАТЬ ➡️➡️➡️ GitHub | GitVerse

В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.

В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.

От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.

Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой

➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!

Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5412👍5🎉3💯1


>>Click here to continue<<

GigaDev — разработка GigaChat






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)