Tesis profesional presentada por Heriberto Cuayáhuitl Portilla

Maestría en Ciencias con Especialidad en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dra. María del Pilar Gómez Gil
Vocal y Director: Dra. Ingrid Kirschning Albers
Secretario: Dr. Mauricio Javier Osorio Galindo

Cholula, Puebla, México a 16 de mayo de 2000.

Resumen

Para que un sistema de reconocimiento automático de habla (ASR) sea usado en un ambiente real, debe ser preciso y robusto. Un sistema de reconocimiento de habla robusto debe tratar con habla espontánea que típicamente contiene titubeos, pausas, correcciones, palabras fuera del vocabulario, ruidos provocados por el locutor y ruidos en el medio ambiente, entre otros. En esta tesis se hace un estudio sobre el problema del habla fuera del vocabulario, en un intento por mejorar el reconocimiento...

Resumen (archivo pdf, 41 kb).

Índice de contenido

Agradecimientos (archivo pdf, 39 kb)

Índices (archivo pdf, 65 kb)

Glosario (archivo pdf, 43 kb)

Capítulo 1. Introducción (archivo pdf, 99 kb)

  • 1.1 Definición del problema
  • 1.2 Trabajos previos
  • 1.3 Objetivos de la tesis
  • 1.4 Resumen

Capítulo 2. Reconocedor SpeechWorks (archivo pdf, 191 kb)

  • 2.1 Introducción
  • 2.2 Procesamiento de la Señal
  • 2.3 Segmentación
  • 2.4 Modelos Acústicos
  • 2.5 Red de Pronunciaciones
  • 2.6 La Búsqueda
  • 2.7 Reordenamiento de la Lista N-best
  • 2.8 Medidas de Desempeño en SpeechWorks
  • 2.9 Resumen

Capítulo 3. CONMAT: La Estructura Experimental (archivo pdf, 247 kb)

  • 3.1 El corpus
  • 3.2 Clasificación de Tipos de Habla
  • 3.3 Metodología de Evaluación
  • 3.4 Resumen

Capítulo 4. Niveles de Confianza (archivo pdf, 200 kb)

  • 4.1 Introducción
  • 4.2 Niveles de Confianza en SpeechWorks
  • 4.3 Optimización de Umbrales de Confianza
  • 4.4 Evaluación de los experimentos base
  • 4.5 Optimización de Umbrales de Confianza en los Experimentos Base
  • 4.6 Resumen

Capítulo 5. Identificación de Palabras Clave usando Fonemas como Fillers (archivo pdf, 277 kb)

  • 5.1 Modelado de fillers con unidades inferiores a la palabra
  • 5.2 Modelado de Fillers de Fonemas
  • 5.3 Modelado de Fillers de Fonemas usando Modelos de Lenguaje
  • 5.4 Resultados de experimentos
  • 5.5 Resumen

Capítulo 6. Identificación de Palabras Clave usando Sílabas como Fillers (archivo pdf, 220 kb)

  • 6.1 Modelado de Sílabas como Unidades Inferiores a la Palabra
  • 6.2 Modelado de Fillers de Sílabas
  • 6.3 Modelado de Fillers de Sílabas Comunes usando Modelos de Lenguaje
  • 6.4 Modelado de Fillers de Sílabas Comunes con Múltiples Pronunciaciones
  • 6.5 Resultados de experimentos
  • 6.6 Resumen

Capítulo 7. Identificación de Palabras Clave usando Palabras como Fillers (archivo pdf, 188 kb)

  • 7.1 Modelado de Unidades de Palabra Completa
  • 7.2 Modelado de Fillers de Palabras Completas
  • 7.3 Modelado de Fillers de Palabras y Fonemas
  • 7.4 Modelado de Fillers de Palabras y Sílabas Comunes
  • 7.5 Resultados de Experimentos
  • 7.6 Resumen

Capítulo 8. Evaluación de Técnicas y Conclusiones (archivo pdf, 148 kb)

  • 8.1 Corpus de Prueba
  • 8.2 Resumen de Técnicas en el Corpus de Desarrollo
  • 8.3 Evaluación de Técnicas en el Corpus de Prueba
  • 8.4 Conclusiones
  • 8.5 Trabajo a Futuro

Referencias (archivo pdf, 51 kb)

Apéndice A. Gramáticas de Sistemas de Identificación de Palabras Clave (archivo pdf, 61 kb)

Apéndice B. División Silábica en Español (archivo pdf, 42 kb)

Cuayáhuitl Portilla, H. 2000. Técnicas para mejorar el reconocimiento de voz en presencia de habla fuera del vocabulario. Tesis Maestría. Ciencias con Especialidad en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2000.