GigaAM: Efficient Self-Supervised Learner for Speech Recognition
Наша статья принята на InterSpeech 2025 — крупнейшую в мире конференцию по обработке речи. Уже в августе представим ее в Роттердаме 🔥
В статье мы предлагаем подход к self-supervised предобучению для моделей распознавания речи:
• HuBERT-CTC — семантические целевые переменные из CTC-энкодера вместо низкоуровневых (wav2vec2.0, BEST-RQ, HuBERT stage-1)
• Достигаем лучшего WER среди open-source моделей на русском языке (до −50% к Whisper-large-v3).
📌 Ранее мы уже рассказывали о GigaAM, но в этой статье собраны дополнительные ценные результаты:
• Probing: HuBERT-CTC формирует более полезные представления
• Ablation study: обгоняем wav2vec2.0, HuBERT, BEST-RQ
• Исследуем scaling: как влияет размер модели (30M–500M), объём unlabeled и labeled данных
• Pretrain с динамическими масками self-attention: позволяет дообучать модель как в streaming, так и full-context режиме без повторного дорогостоящего предобучения
Помимо сервисов распознавания речи наш подход успешно применяется в аудиомодальности GigaChat, подробнее — в статье на Хабр
Ждем вас в комментариях для обсуждения self-supervised learning в аудио!
>>Click here to continue<<
