End2End моделирование голоса
Синтез речи (или text-to-speech) — это задача формирования сигнала, похожего на человеческую речь, по тексту. Обычно решение этой задачи разделяется на три части (модели):
1. G2P — эта часть переводит исходный текст в фонемы, в дальнейшем с ними работать удобнее.
2. Акустическая модель — эта часть описывает то, как связаны лингвистические признаки (текст) и акустические признаки целевого сигнала. Обычно это модель, строящая по фонемам мел-спектрограмму сигнала, который мы хотим в итоге предсказывать.
3. Вокодер — это модель, которая генерирует итоговый речевой сигнал по акустическим признакам (чаще всего по спектрограмме).
Основная проблема подхода в том, что эти три модели обучаются независимо друг от друга. Именно поэтому в последнее время распространяется использование end2end обучения, которое использует единую модель для решения всей задачи, без разбиения на несколько независимых моделей. Глобальная задача этого проекта — построить end2end модель для синтеза речи.