🎧 Amphion: универсальная платформа для генерации мультимодального аудио от OpenMMLab
Зачем нужен Amphion
Amphion — это модульная open-source библиотека для создания и обработки аудио с помощью генеративных моделей. Поддерживает TTS, звуковые эффекты, музыку, шумы, аудио редактирование и многое другое. Построена для работы с PyTorch.
Особенности
🔌 Модульная архитектура — ядро разделено на три уровня: backend (обработка аудио), frontend (UI/API/CLI) и pipeline (инференс).
🎙️ Мультимодальность — поддержка как TTS, так и генерации SFX, музыки, редактирования и конверсии речи.
🧩 Богатая экосистема — можно использовать собственные модели или готовые пайплайны, включая TTS, voice conversion, аудиоредакторы.
📦 Поддержка разных форматов — WAV, MP3 и др.
💡 Интеграция с HuggingFace — загрузка моделей и конфигов прямо из Model Hub.
Поддерживаемые модели
- TTS: FastSpeech2, VITS, Grad-TTS
- VC: ContentVec + DiffVC
- SE/Enhancement: MetricGAN, Diffusion-based models
- AudioLM и DiffSound в разработке
🛠 Пример использования:
python tools/infer.py \
--pipeline tts \
--input_text "Привет, мир!" \
--output output.wav
https://github.com/open-mmlab/Amphion
>>Click here to continue<<
