Tesis profesional presentada por Eduardo Clemente Fragoso

Maestría en Ciencias con Especialidad en Ingeniería en Sistemas Computacionales. Departamento de Computación, Electrónica, Física e Innovación. Escuela de Ingeniería y Ciencias, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dra. Genoveva Vargas-Solar
Vocal y Director: Dra. Ingrid Kirschning Albers
Secretario: Dra. María del Pilar Gómez Gil

Cholula, Puebla, México a 10 de mayo de 2006.

Resumen

La presente tesis consiste en el desarrollo de un reconocedor robusto de voz de niños. El reconocedor está basado en modelos ocultos de Markov de densidad continua. Se investigan y aplican tres métodos para mejorar el desempeño de los modelos acústicos obtenidos en la fase de entrenamiento. En primer lugar es aplicada una técnica de normalización de la longitud del tracto vocal (VTLN) para minimizar las diferencias acústicas entre los locutores. En la fase de adaptación son aplicadas dos...

Resumen (archivo pdf, 76 kb).

Índice de contenido

Prefacio (archivo pdf, 54 kb)

Capítulo 1. Introducción (archivo pdf, 104 kb)

  • 1.1 Definición del Problema
  • 1.2 Objetivos
  • 1.3 Organización del Documento

Capítulo 2. El Problema de Reconocimiento de Voz (archivo pdf, 304 kb)

  • 2.1 Fonética y Fonología
  • 2.2 Fundamentos Matemáticos para el Reconocimiento de Voz
  • 2.3 Componentes de un Reconocedor de Voz

Capítulo 3. Adaptación y Normalización (archivo pdf, 374 kb)

  • 3.1 Reconocimiento Robusto de Voz
  • 3.2 Normalización de la Longitud del Tracto Vocal (VTLN)
  • 3.3 Regresión Lineal de Probabilidad Máxima (MLLR)
  • 3.4 Regresión Lineal de Probabilidad Máxima a Posteriori (MAPLR)

Capítulo 4. Reconocimiento de Voz de Niños Para el Español Hablado en México Usando SONIC (archivo pdf, 234 kb)

  • 4.1 Modelado Acústico
  • 4.2 Panorama del Proceso de Entrenamiento del Modelo
  • 4.3 Preparación de los Datos
  • 4.4 Alineación y Extracción de Características
  • 4.5 Entrenamiento
  • 4.6 Realineación y Reentrenamiento
  • 4.7 Entrenamiento del Modelo del Lenguaje

Capítulo 5. Experimentos y Resultados (archivo pdf, 242 kb)

  • 5.1 Descripción del Corpus de Niños
  • 5.2 Parámetros de Evaluación del Reconocedor
  • 5.3 Experimentos y Resultados del Reconocedor Base
  • 5.4 Experimentos y Resultados del Reconocedor con VTLN
  • 5.5 Experimentos y Resultados del Reconocedor con MLLR
  • 5.6 Experimentos y Resultados del Reconocedor con MAPLR

Capítulo 6. Conclusiones (archivo pdf, 86 kb)

  • 6.1 Discusión
  • 6.2 Trabajo a Futuro

Referencias (archivo pdf, 147 kb)

Apéndice A. Archivos de Configuración para SONIC (archivo pdf, 86 kb)

Apéndice B. Rutinas de Adaptación y Normalización (archivo pdf, 135 kb)

Apéndice C. Pasos Generales del Entrenamiento en SONIC (archivo pdf, 78 kb)

Clemente Fragoso, E. 2006. Desarrollo de un Reconocedor Robusto de Voz de Niños. Tesis Maestría. Ciencias con Especialidad en Ingeniería en Sistemas Computacionales. Departamento de Computación, Electrónica, Física e Innovación, Escuela de Ingeniería y Ciencias, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2006.