Tesis profesional presentada por Alejandra López Fernández

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Mauricio Javier Osorio Galindo
Vocal y Director: M.C. Yulia Andréyevna Ostróvskaya
Secretario: Dr. Jesús Antonio González Bernal

Cholula, Puebla, México a 12 de mayo de 2005.

Resumen

El propósito de esta tesis es explorar el potencial de la teoría formulaica para agrupar textos no estructurados, basados en su contenido temático y estilo. La formulaicidad lingüística es una teoría lingüística reciente que propone que existen fórmulas o expresiones preformadas como parte de lo que se dice y es escrito. En este trabajo, textos de dominios que parecen contener formulas o secuencias formulaicas son recolectados, buscando las expresiones que son más típicas para cada dominio. El algoritmo de reconocimiento de patrones usado es un híbrido de SUBDUE. Esta es una herramienta nueva de minería de textos para encontrar subestructuras en grafos, este algoritmo es adaptado para resolver un problema de la lingüística computacional, proveyendo una alternativa al algoritmo de colocación clásico. Después, las expresiones encontradas son usadas por el algoritmo de agrupamiento formulaico que desarrollamos para identificar nuevos textos como pertenecientes o no a alguno de los dominios con los cuales el algoritmo está familiarizado. Los resultados son discutidos para probar el potencial de la teoría.

Índice de contenido

Portada (archivo pdf, 191 kb)

Agradecimientos (archivo pdf, 24 kb)

Índices (archivo pdf, 83 kb)

Capítulo 1. Introducción (archivo pdf, 68 kb)

  • 1.1 Descripción del problema
  • 1.2 Objetivos
  • 1.3 Alcances
  • 1.4 Limitaciones
  • 1.5 Organización del documento

Capítulo 2. Marco teórico (archivo pdf, 138 kb)

  • 2.1 Formulaicidad lingüística
  • 2.2 Lingüística computacional
  • 2.3 Recuperación de información
  • 2.4 Minería de textos
  • 2.5 Algoritmos
  • 2.6 Representación
  • 2.7 Trabajos relacionados

Capítulo 3. Metodología (archivo pdf, 287 kb)

  • 3.1 Fase de entrenamiento
  • 3.2 Fase de evaluación
  • 3.3 Refinamiento de fórmulas
  • 3.4 Fase de pruebas

Capítulo 4. Diseño (archivo pdf, 629 kb)

  • 4.1 Arquitectura del sistema
  • 4.2 Preprocesamiento
  • 4.3 Módulo de entrenamiento: procesamiento
  • 4.4 Módulo de evaluación
  • 4.5 Módulo de pruebas
  • 4.6 Modelo de datos

Capítulo 5. Implementación (archivo pdf, 301 kb)

  • 5.1 Consideraciones
  • 5.2 Modelo de datos
  • 5.3 Módulos del sistema
  • 5.4 Funciones principales del sistema
  • 5.5 Características de la implementación

Capítulo 6. Pruebas y resultados (archivo pdf, 120 kb)

  • 6.1 Recolección de las muestras
  • 6.2 Fase de entrenamiento
  • 6.3 Fase de evaluación
  • 6.4 Fase de pruebas
  • 6.5 Dominios
  • 6.6 Complejidad del algoritmo

Capítulo 7. Trabajo a futuro (archivo pdf, 70 kb)

  • 7.1 Detección de formulaicidad
  • 7.2 Tamaño de las fórmulas
  • 7.3 Extensión a otros idiomas
  • 7.4 Definición de términos
  • 7.5 Más intentos con SUBDUE
  • 7.6 Pruebas con otros Corpora
  • 7.7 Comparaciones con otros trabajos

Capítulo 8. Conclusiones (archivo pdf, 69 kb)

Referencias (archivo pdf, 85 kb)

Apéndice A. Diccionario de datos (archivo pdf, 55 kb)

Apéndice B. Notas de instalación (archivo pdf, 49 kb)

Apéndice C. Diagramas de clases (archivo pdf, 106 kb)

Apéndice D. Corpora (archivo pdf, 1 mb)

Apéndice E. Preprocesamiento (archivo pdf, 275 kb)

Apéndice F. Fórmulas (archivo pdf, 47 kb)

Apéndice G. Resultados (archivo pdf, 104 kb)

López Fernández, A. 2005. Aplicación de la formulaicidad lingüística en el procesamiento de lenguaje natural. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2005.