1 Respuesta
Actualmente existen dos modelos principales para ello: Concatenativo y Generativo.
El modelo concatenativo es el más antiguo y se crea grabando muestras de habla de una persona y dividiéndolas en trozos basados en fonemas (primitivas lingüísticas de audio) y luego empalmándolas. El resultado es el discurso robótico y rebuscado que existe en la mayoría de las aplicaciones de texto a voz. Se necesitan unas mil horas de audio de media para crear una biblioteca de muestras concatenadas y se puede realizar algún tipo de suavizado algorítmico para que suene un poco más natural, pero carece de un aspecto humano, como la respiración o las pausas y el flujo naturales.
La conversión generativa de voz a texto es un enfoque mucho más reciente basado en redes neuronales. Es lo que Google ha introducido recientemente en el mundo con Wavenet. Puede producir resultados interesantes que son mucho más naturales, producen sonidos no relacionados con el habla y fluyen de una manera más natural. Como ocurre con cualquier red neuronal, es tan buena como el entrenamiento que se haga de ella. Se trata de una tecnología mucho más reciente y, como habrás visto en las últimas demostraciones de Google, ofrece unos resultados estelares que probablemente sólo mejorarán con el tiempo.