Tesis profesional presentada por Alejandra López Fernández

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Mauricio Javier Osorio Galindo
Vocal y Director: M.C. Yulia Andréyevna Ostróvskaya
Secretario: Dr. Jesús Antonio González Bernal

Cholula, Puebla, México a 12 de mayo de 2005.

Resumen

El propósito de esta tesis es explorar el potencial de la teoría formulaica para agrupar textos no estructurados, basados en su contenido temático y estilo. La formulaicidad lingüística es una teoría lingüística reciente que propone que existen fórmulas o expresiones preformadas como parte de lo que se dice y es escrito. En este trabajo, textos de dominios que parecen contener formulas o secuencias formulaicas son recolectados, buscando las expresiones que son más típicas para cada dominio. El algoritmo de reconocimiento...

Resumen (archivo pdf, 9 kb).

Índice de contenido

Portada (archivo pdf, 191 kb)

Agradecimientos (archivo pdf, 24 kb)

Índices (archivo pdf, 83 kb)

Capítulo 1. Introducción (archivo pdf, 68 kb)

  • 1.1 Descripción del problema
  • 1.2 Objetivos
  • 1.3 Alcances
  • 1.4 Limitaciones
  • 1.5 Organización del documento

Capítulo 2. Marco teórico (archivo pdf, 138 kb)

  • 2.1 Formulaicidad lingüística
  • 2.2 Lingüística computacional
  • 2.3 Recuperación de información
  • 2.4 Minería de textos
  • 2.5 Algoritmos
  • 2.6 Representación
  • 2.7 Trabajos relacionados

Capítulo 3. Metodología (archivo pdf, 287 kb)

  • 3.1 Fase de entrenamiento
  • 3.2 Fase de evaluación
  • 3.3 Refinamiento de fórmulas
  • 3.4 Fase de pruebas

Capítulo 4. Diseño (archivo pdf, 629 kb)

  • 4.1 Arquitectura del sistema
  • 4.2 Preprocesamiento
  • 4.3 Módulo de entrenamiento: procesamiento
  • 4.4 Módulo de evaluación
  • 4.5 Módulo de pruebas
  • 4.6 Modelo de datos

Capítulo 5. Implementación (archivo pdf, 301 kb)

  • 5.1 Consideraciones
  • 5.2 Modelo de datos
  • 5.3 Módulos del sistema
  • 5.4 Funciones principales del sistema
  • 5.5 Características de la implementación

Capítulo 6. Pruebas y resultados (archivo pdf, 120 kb)

  • 6.1 Recolección de las muestras
  • 6.2 Fase de entrenamiento
  • 6.3 Fase de evaluación
  • 6.4 Fase de pruebas
  • 6.5 Dominios
  • 6.6 Complejidad del algoritmo

Capítulo 7. Trabajo a futuro (archivo pdf, 70 kb)

  • 7.1 Detección de formulaicidad
  • 7.2 Tamaño de las fórmulas
  • 7.3 Extensión a otros idiomas
  • 7.4 Definición de términos
  • 7.5 Más intentos con SUBDUE
  • 7.6 Pruebas con otros Corpora
  • 7.7 Comparaciones con otros trabajos

Capítulo 8. Conclusiones (archivo pdf, 69 kb)

Referencias (archivo pdf, 85 kb)

Apéndice A. Diccionario de datos (archivo pdf, 55 kb)

Apéndice B. Notas de instalación (archivo pdf, 49 kb)

Apéndice C. Diagramas de clases (archivo pdf, 106 kb)

Apéndice D. Corpora (archivo pdf, 1 mb)

Apéndice E. Preprocesamiento (archivo pdf, 275 kb)

Apéndice F. Fórmulas (archivo pdf, 47 kb)

Apéndice G. Resultados (archivo pdf, 104 kb)

López Fernández, A. 2005. Aplicación de la formulaicidad lingüística en el procesamiento de lenguaje natural. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2005.