Tesis profesional presentada por Gabriel Alejandro Moreno Azcona [gabotrotamundos@gmail.com]

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Computación, Electrónica y Mecatrónica. Escuela de Ingeniería y Ciencias, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Mtro. Daniel Pérez Rojas
Vocal y Director: Dra. Ingrid Kirschning Albers
Secretario: Dr. José Miguel David Báez López

Cholula, Puebla, México a 21 de abril de 2008.

Resumen

Desde 1997 no se ha realizado un nuevo sintetizador de voz en español mexicano para el sistema de texto a voz ?Festival?. En este documento se presenta una nueva adecuación de Festival para soportar el español hablado en México. Así mismo se describe el estado actual de la producción de voz artificial, el proceso de configuración e instalación del sistema necesario para el desarrollo de la voz en un ambiente Unix, así como los modelos de producción de voz diseñados para el español hablado en México. También se describe el proceso de producción de una voz artificial en diferentes niveles estructurales y funcionales necesarios para implementar los modelos realizados. Finalmente, se discuten los resultados obtenidos al comparar objetivamente la nueva voz con su predecesora, lo cual permitió generar propuestas para mejoras futuras al sistema.

Índice de contenido

Portada (archivo pdf, 19 kb)

Capítulo 1. Panorama de los Sistemas de Texto a Voz (archivo pdf, 50 kb)

  • 1.1 ¿Qué es un sistema Text-to-Speech?
  • 1.2 ¿Cómo funciona el procesamiento de voz?
  • 1.3 Utilidad de los sintetizadores de voz
  • 1.4 Tipos de sintetizadores existentes
  • 1.5 Sistemas TTS existentes
  • 1.6 ¿Por qué utilizar Festival?

Capítulo 2. Instalación y Configuración de Festival en un sistema Unix (archivo pdf, 106 kb)

  • 2.1 Paquetes requeridos
  • 2.2 Grabación y reproducción de audio en Linux
  • 2.3 Etiquetado de archivos de audio
  • 2.4 Compilación de Festival y los paquetes necesarios para su funcionamiento
  • 2.5 Prueba del sistema

Capítulo 3. Arquitectura y configuración del lenguaje (archivo pdf, 114 kb)

  • 3.1 Control del Sistema
  • 3.2 Estructuras de datos
  • 3.3 Módulos del sistema text to speech

Capítulo 4. Proceso para la creación de una nueva voz (archivo pdf, 209 kb)

  • 4.1 Definición de la estructura
  • 4.2 Definición de fonemas
  • 4.3 Definición del esquema de difonemas
  • 4.4 Generación y síntesis de logotomas
  • 4.5 Grabación del corpus de logotomas
  • 4.6 Etiquetado de grabaciones
  • 4.7 Índice de difonemas y extracción de pitchmarks
  • 4.8 Pruebas iniciales
  • 4.9 Preparación de la nueva voz para su distribución

Capítulo 5. Evaluación y pruebas (archivo pdf, 68 kb)

  • 5.1 Método para evaluar sistemas de texto a voz
  • 5.2 Aplicación del método objetivo de evaluación
  • 5.3 Resultados
  • 5.4 Evaluación de resultados y perspectivas a futuro

Capítulo 6. Conclusiones (archivo pdf, 11 kb)

Referencias (archivo pdf, 19 kb)

Apéndice A. Parche para compilar Festival en gcc4.x por N. Shmyrev (archivo pdf, 31 kb)

Apéndice B. Comunicados (archivo pdf, 91 kb)

Apéndice C. Instalación de Linux y librerías (archivo pdf, 630 kb)

Apéndice D. Transcripción (archivo pdf, 8 kb)

Moreno Azcona, G. A. 2008. Nueva Voz Concatenativa de Difonemas para el Español Mexicano en Festival. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Computación, Electrónica y Mecatrónica, Escuela de Ingeniería y Ciencias, Universidad de las Américas Puebla. Abril. Derechos Reservados © 2008.