TG Telegram Group & Channel
Пресидский залив (ex Надя пробует) | United States America (US)
Create: Update:

🔥 Интересное применение voice conversion для генерации параллельного датасета в задаче accent reduction с InterSpeech!

🌚 Если вы когда-нибудь смотрели видео на ютубе с разбором статей от non-native speakers, вы понимаете, как важна эта задача

🧐 Нет параллельных данных с одним и тем же голосом (same pitch, timbre), но с разными акцентами. Иными словами, у нас нет явных таргетов.

💡Давайте нагенерим данные с таргетами сами!

Пусть есть Andy, у которого american english accent и Rishu, у которого hindi english accent и мы хотим процеснуть речь Rishu в american accent. Без ограничения общности, можно взять любой акцент (например наоборот работать с речью Andy в hindi accent) или вообще другой язык, главное, найти акцентированные данные. Тогда чтобы собрать полный пайплайн, нам нужно сделать 2 шага:

⚙️ Voice conversion step. Возьмем any-to-any vc. Хотим модифицировать речь Andy так, чтобы pronunciation pattern и просодика остались оригинальными, а pitrch и timbre стали как у Rishu. После этого шага у нас будут пары с голосом Rishu, но уже с двумя разными акцентами

Авторы берут ARCTIC corpus и L2-ARCTIC Hindi-accented corpus. В этих датасетах 4 человека с американским акцентом и 4 человека с индийским произносят одни и те же фразы. По схеме с Rishu, сгенерируем при помощи vc пары с разными акцентами для всех фраз

⚙️ Accent conversion step. Обучим AC пайплайн, который берет на вход hindi-акцентированную речь и выдает речь того же человека, но с американским акцентом. Архитектура seq2seq, где в качестве энкодера берется wav2vec2.0 и в качестве декодера tacotron2.

Вокодер в статье — WaveGlow, но можно взять что-то помоднее. Например тот же hifi-gan, а вместо wav2vec2.0 попробовать hubert 🙃

p.s. если вы сейчас выбираете тему для диплома, думаю эта статья — неплохой вариант. Код для VQMIVC выложен, а второй шаг является компиляцией трех существующих репозиториев: предобученный wav2vec2.0, tacotron2, и какой-нибудь предобученный вокодер, по статье это WaveGlow
офлайн демка
#tech

🔥 Интересное применение voice conversion для генерации параллельного датасета в задаче accent reduction с InterSpeech!

🌚 Если вы когда-нибудь смотрели видео на ютубе с разбором статей от non-native speakers, вы понимаете, как важна эта задача

🧐 Нет параллельных данных с одним и тем же голосом (same pitch, timbre), но с разными акцентами. Иными словами, у нас нет явных таргетов.

💡Давайте нагенерим данные с таргетами сами!

Пусть есть Andy, у которого american english accent и Rishu, у которого hindi english accent и мы хотим процеснуть речь Rishu в american accent. Без ограничения общности, можно взять любой акцент (например наоборот работать с речью Andy в hindi accent) или вообще другой язык, главное, найти акцентированные данные. Тогда чтобы собрать полный пайплайн, нам нужно сделать 2 шага:

⚙️ Voice conversion step. Возьмем any-to-any vc. Хотим модифицировать речь Andy так, чтобы pronunciation pattern и просодика остались оригинальными, а pitrch и timbre стали как у Rishu. После этого шага у нас будут пары с голосом Rishu, но уже с двумя разными акцентами

Авторы берут ARCTIC corpus и L2-ARCTIC Hindi-accented corpus. В этих датасетах 4 человека с американским акцентом и 4 человека с индийским произносят одни и те же фразы. По схеме с Rishu, сгенерируем при помощи vc пары с разными акцентами для всех фраз

⚙️ Accent conversion step. Обучим AC пайплайн, который берет на вход hindi-акцентированную речь и выдает речь того же человека, но с американским акцентом. Архитектура seq2seq, где в качестве энкодера берется wav2vec2.0 и в качестве декодера tacotron2.

Вокодер в статье — WaveGlow, но можно взять что-то помоднее. Например тот же hifi-gan, а вместо wav2vec2.0 попробовать hubert 🙃

p.s. если вы сейчас выбираете тему для диплома, думаю эта статья — неплохой вариант. Код для VQMIVC выложен, а второй шаг является компиляцией трех существующих репозиториев: предобученный wav2vec2.0, tacotron2, и какой-нибудь предобученный вокодер, по статье это WaveGlow
офлайн демка
#tech
👍9🔥51


>>Click here to continue<<

Пресидский залив (ex Надя пробует)






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)