Tesis profesional presentada por María del Rocio Abascal Mena

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Rogelio Dávila Pérez
Vocal y Director: Dr. J. Alfredo Sánchez Huitrón
Secretario: Dr. Mauricio Javier Osorio Galindo

Cholula, Puebla, México a 11 de diciembre de 1998.

Resumen

El presente proyecto presenta una solución al problema de análisis y edición de textos en un dominio de aplicación específico, así como su inserción a una base de datos. La solución se propone en el contexto de la Biblioteca Digital Florística (FDL), la cual se está desarrollando en el Centro de Informática Botánica del Jardín Botánico de Missouri con la participación del Laboratorio de Tecnologías Interactivas y Cooperativas (ICT) de la Universidad de las Américas Puebla (UDLAP). El objetivo del proyecto FDL es recolectar y publicar información sobre especies de plantas briofitas y vasculares que crecen en diversas regiones, incluyendo la Flora de Norteamérica (FNA), la Flora de China (FOC) y la Flora de Mesoamérica (FM). Sólo en FNA están participando cerca de 800 autores de documentos llamados tratamientos taxonómicos y que representan el elemento de información fundamental de FDL.

Cada tratamiento taxonómico contiene una descripción morfológica cuya introducción manual, revisión y edición representa una enorme inversión de tiempo. Esto se debe principalmente a que las descripciones morfológicas, aunque utilizan un lenguaje restringido, no observan un formato fijo, sino que cada descripción contiene un número diferente de características.

La solución que se propone demuestra el potencial del uso de una gramática en la determinación de la estructura de la información contenida en un texto determinado dentro de una biblioteca digital. Dado un texto en formato HTML o formato libre el sistema lo analiza para presentárselo al usuario con el fin de su verificación antes de que se actualice la base de datos. Esta transformación es útil también en el proceso de almacenar descripciones morfológicas existentes en una base de datos con un formato preestablecido.

El proyecto forma parte de un sistema, más general, de apoyo a los autores de descripciones morfológicas. Con su uso se espera agilizar la construcción de la biblioteca digital además de contribuir a la investigación en el área de extracción de información en una biblioteca digital.

Índice de contenido

Índices (archivo pdf, 46 kb)

Capítulo 1. Introducción (archivo pdf, 104 kb)

  • 1.1 Bibliotecas Digitales
  • 1.2 Biblioteca Digital Florística
  • 1.3 El problema de extraer información en FDL
  • 1.4 Estructura en las Bibliotecas Digitales
  • 1.5 X-TRACT: Un Método heurístico de extracción de estructura
  • 1.6 Objetivos del proyecto
  • 1.7 Organización del documento

Capítulo 2. Trabajo Relacionado (archivo pdf, 89 kb)

  • 2.1 Extracción de infromación
  • 2.2 Analizadores de texto
  • 2.3 DELTA
  • 2.4 Creación de bases de datos
  • 2.5 Resultado del análisis

Capítulo 3. Extracción de Estructura en FDL (archivo pdf, 318 kb)

  • 3.1 Proceso de análisis de una descripción morfológica
  • 3.2 Componentes de un sistema de extracción de información
  • 3.3 Componentes de X-tract
  • 3.4 X-tract dentro de la arquitectura de FDL

Capítulo 4. Prototipo y Evaluación (archivo pdf, 307 kb)

  • 4.1 Prototipo X-tract
  • 4.2 Evaluación

Capítulo 5. Conclusiones (archivo pdf, 41 kb)

  • 5.1 Logros
  • 5.2 Problemas
  • 5.3 Trabajo a futuro
  • 5.4 Comentarios finales

Referencias (archivo pdf, 36 kb)

Abascal Mena, M. R. 1998. Extracción de estructura a partir de descripciones textuales botánicas. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Diciembre. Derechos Reservados © 1998.