Tesis profesional presentada por
Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.
Jurado Calificador
Presidente: Dr. Mauricio Javier Osorio
Galindo
Vocal y Director: M.C. Yulia Andréyevna
Ostróvskaya
Secretario: Dr. Jesús Antonio
González Bernal
Cholula, Puebla, México a 12 de mayo de 2005.
El propósito de esta tesis es explorar el potencial de la teoría formulaica para agrupar textos no estructurados, basados en su contenido temático y estilo. La formulaicidad lingüística es una teoría lingüística reciente que propone que existen fórmulas o expresiones preformadas como parte de lo que se dice y es escrito. En este trabajo, textos de dominios que parecen contener formulas o secuencias formulaicas son recolectados, buscando las expresiones que son más típicas para cada dominio. El algoritmo de reconocimiento de patrones usado es un híbrido de SUBDUE. Esta es una herramienta nueva de minería de textos para encontrar subestructuras en grafos, este algoritmo es adaptado para resolver un problema de la lingüística computacional, proveyendo una alternativa al algoritmo de colocación clásico. Después, las expresiones encontradas son usadas por el algoritmo de agrupamiento formulaico que desarrollamos para identificar nuevos textos como pertenecientes o no a alguno de los dominios con los cuales el algoritmo está familiarizado. Los resultados son discutidos para probar el potencial de la teoría.
Agradecimientos (archivo pdf, 24 kb)
Capítulo 1. Introducción (archivo pdf, 68 kb)
Capítulo 2. Marco teórico (archivo pdf, 138 kb)
Capítulo 3. Metodología (archivo pdf, 287 kb)
Capítulo 4. Diseño (archivo pdf, 629 kb)
Capítulo 5. Implementación (archivo pdf, 301 kb)
Capítulo 6. Pruebas y resultados (archivo pdf, 120 kb)
Capítulo 7. Trabajo a futuro (archivo pdf, 70 kb)
Capítulo 8. Conclusiones (archivo pdf, 69 kb)
Referencias (archivo pdf, 85 kb)
Apéndice A. Diccionario de datos (archivo pdf, 55 kb)
Apéndice B. Notas de instalación (archivo pdf, 49 kb)
Apéndice C. Diagramas de clases (archivo pdf, 106 kb)
Apéndice D. Corpora (archivo pdf, 1 mb)
Apéndice E. Preprocesamiento (archivo pdf, 275 kb)
López Fernández, A. 2005. Aplicación de la formulaicidad lingüística en el procesamiento de lenguaje natural. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2005.