🗣 OuteTTS 1.0 — это современный open-source инструмент для синтеза речи (Text-to-Speech), который делает акцент на высоком качестве озвучки, клонировании голоса и поддержке множества языков. Основные особенности:
🔊 Ключевые возможности:
Высокая производительность:
Способен генерировать аудио до 42 секунд (~8192 токена) за один прогон.
Однако для наилучших результатов рекомендуется ограничиваться ~7000 токенами.
- Поддержка клонирования голоса:
Использует референсный голос (speaker reference) длиной, например, 10 секунд. В таком случае контекст для синтеза сокращается: доступно около 32 секунд активного контента (из 42).
- 20 языков:
Поддерживает озвучку на 20 различных языках, что делает его универсальным решением для мультиязычных проектов.
🛠️ Под капотом:
Хотя подробностей о модели в описании немного, из GitHub-репозитория следует, что:
Используются современные архитектуры трансформеров для TTS.
Поддерживается реалистичное клонрование голоса по короткому фрагменту.
Скорость генерации и качество аудио находятся на уровне лучших TTS-систем с открытым кодом.
Установка: git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS
pip install -r requirements.txt
python
from outetts import OuteTTS
tts = OuteTTS(
reference_speaker_path="reference_audio/igor_voice.wav",
language="ru" # поддерживаются и другие языки, например: "en", "ja"
)
text = "Привет, Python разработчик! Я твой кастомный голосовой ассистент."
audio = tts.generate(text)
with open("output.wav", "wb") as f:
f.write(audio)
📥 Ссылка на репозиторий
@pythonl
>>Click here to continue<<