Tesis profesional presentada por Julio López Moreno

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Rogelio Dávila Pérez
Vocal y Director: Dra. Ingrid Kirschning Albers
Secretario: Dr. Fernando Antonio Aguilera Ramírez

Cholula, Puebla, México a 19 de mayo de 2000.

Resumen

En este documento se presenta el desarrollo de un sistema para el reconocimiento de voz para el Español hablado en México, capaz de diferenciar entre vocales enfatizadas y no-enfatizadas. El sistema fue entrenado utilizando el CSLU Toolkit. Se trabajó sobre el corpus de dígitos. Este corpus anteriormente recolectado tuvo que ser re-etiquetado para incluir en sus transcripciones y etiquetas las diferencias entre fonemas con y sin énfasis. Este trabajo describe el proceso de re-etiquetado y el entrenamiento de la red neuronal con estos datos. Finalmente se evalúa el nivel del desempeño del nuevo reconocedor con las herramientas del Toolkit así como con el software de evaluación de NIST y se compara contra uno entrenado sin la distinción de énfasis. Los resultados obtenidos confirman nuestra hipótesis de que un reconocedor capaz de distinguir el énfasis en las vocales presenta menos errores. Estos resultados servirán como punto de partida para futuras investigaciones y el desarrollo de un reconocedor de propósito general más robusto.

Índice de contenido

Índices (archivo pdf, 51 kb)

Glosario (archivo pdf, 38 kb)

Introducción (archivo pdf, 44 kb)

Capítulo 1. Reconocimiento de Voz (archivo pdf, 186 kb)

  • 1.1 Antecedentes
  • 1.2 Proceso de producción y percepción del habla
  • 1.3 Características acústicas
  • 1.4 Elementos de un reconocedor de voz
  • 1.5 Tipos de sistemas de reconocimiento de voz
  • 1.6 Aplicaciones del reconocimiento de voz

Capítulo 2. CSLU Toolkit (archivo pdf, 175 kb)

  • 2.1 Arquitectura del CSLU Toolkit
  • 2.2 Reconocimiento de voz basado en frames
  • 2.3 Modelado fonético
  • 2.4 Redes Neuronales

Capítulo 3. Corpus de voz (archivo pdf, 196 kb)

  • 3.1 Corpus de dígitos
  • 3.2 Protocolo de etiquetado
  • 3.3 Conjunto de símbolos
  • 3.4 Formato y estructura de los archivos

Capítulo 4. Descripción del experimento (archivo pdf, 65 kb)

  • 4.1 Definición de la notación
  • 4.2 Re-etiquetado del corpus
  • 4.3 Desarrollo del reconocedor

Capítulo 5. Evaluación (archivo pdf, 123 kb)

  • 5.1 Análisis de resultados con CSLU Toolkit
  • 5.2 NIST

Capítulo 6. Conclusiones (archivo pdf, 43 kb)

Referencias (archivo pdf, 43 kb)

Apéndice A. Archivos .vocab y .parts (archivo pdf, 42 kb)

Apéndice B. Resultados (archivo pdf, 69 kb)

Apéndice C. Scripts (archivo pdf, 71 kb)

López Moreno, J. 2000. Desarrollo de un reconocedor de dígitos con distinción de énfasis. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2000.