TG Telegram Group & Channel
GigaDev — разработка GigaChat | United States America (US)
Create: Update:

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Наша статья принята на InterSpeech 2025 — крупнейшую в мире конференцию по обработке речи. Уже в августе представим ее в Роттердаме 🔥

В статье мы предлагаем подход к self-supervised предобучению для моделей распознавания речи:
• HuBERT-CTC — семантические целевые переменные из CTC-энкодера вместо низкоуровневых (wav2vec2.0, BEST-RQ, HuBERT stage-1)
• Достигаем лучшего WER среди open-source моделей на русском языке (до −50% к Whisper-large-v3).

📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


📌 Ранее мы уже рассказывали о GigaAM, но в этой статье собраны дополнительные ценные результаты:
• Probing: HuBERT-CTC формирует более полезные представления
• Ablation study: обгоняем wav2vec2.0, HuBERT, BEST-RQ
• Исследуем scaling: как влияет размер модели (30M–500M), объём unlabeled и labeled данных
• Pretrain с динамическими масками self-attention: позволяет дообучать модель как в streaming, так и full-context режиме без повторного дорогостоящего предобучения


Помимо сервисов распознавания речи наш подход успешно применяется в аудиомодальности GigaChat, подробнее — в статье на Хабр

Ждем вас в комментариях для обсуждения self-supervised learning в аудио!

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Наша статья принята на InterSpeech 2025 — крупнейшую в мире конференцию по обработке речи. Уже в августе представим ее в Роттердаме 🔥

В статье мы предлагаем подход к self-supervised предобучению для моделей распознавания речи:
• HuBERT-CTC — семантические целевые переменные из CTC-энкодера вместо низкоуровневых (wav2vec2.0, BEST-RQ, HuBERT stage-1)
• Достигаем лучшего WER среди open-source моделей на русском языке (до −50% к Whisper-large-v3).

📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


📌 Ранее мы уже рассказывали о GigaAM, но в этой статье собраны дополнительные ценные результаты:
• Probing: HuBERT-CTC формирует более полезные представления
• Ablation study: обгоняем wav2vec2.0, HuBERT, BEST-RQ
• Исследуем scaling: как влияет размер модели (30M–500M), объём unlabeled и labeled данных
• Pretrain с динамическими масками self-attention: позволяет дообучать модель как в streaming, так и full-context режиме без повторного дорогостоящего предобучения


Помимо сервисов распознавания речи наш подход успешно применяется в аудиомодальности GigaChat, подробнее — в статье на Хабр

Ждем вас в комментариях для обсуждения self-supervised learning в аудио!
Please open Telegram to view this post
VIEW IN TELEGRAM
28🔥17🎉12👍2👏1


>>Click here to continue<<

GigaDev — разработка GigaChat






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)