Tesis profesional presentada por Roberto Dircio Palacios Macedo

Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Juan Manuel Ahuactzin Larios
Vocal y Director: Dr. J. Alfredo Sánchez Huitrón
Secretario: Dra. Ingrid Kirschning Albers

Cholula, Puebla, México a 9 de diciembre de 1998.

Resumen

Las bibliotecas digitales abarcan una gran área de investigación en la que convergen múltiples disciplinas. Las facilidades que dichas bibliotecas proveen a sus usuarios incluyen y extienden los servicios provistos por las bibliotecas convencionales. Entre estas están las consultas, que prometen un aprovechamiento mayor de la información, dando al usuario opciones de referenciar hasta la más mínima unidad de información contenida en su acervo, que para el caso de las imágenes que contienen texto, son los caracteres que las componen. El reconocimiento óptico de caracteres (OCR) es una herramienta que permite transformar éstos datos en información útil. Los sistemas comerciales de reconocimiento que existen actualmente no siempre se adaptan al gran volúmen de información a ser procesada para la construcción de bibliotecas digitales. Por ello, es necesario crear alternativas que se adapten a la tarea.

En la biblioteca digital florística, cuya misión es fomentar la investigación y el conocimiento general de las plantas, hay colecciones voluminosas de documentos de texto que son de gran utilidad para la investigación botánica. Esta tesis conjunta un sistema de procesamiento en paralelo para el reconocimiento de tarjetas con texto y un módulo de consultas. La conjunción de ambos se denominó HuSystem y su objetivo es facilitar al usuario las consultas de 350,000 tarjetas que contienen información acerca de la flora de China.

Este trabajo presenta un diseño y la implementación de una herramienta que permite introducir el texto de las tarjetas en la base de datos. Esta herramienta aprovecha el poder de cómputo en paralelo, al distribuir el trabajo a diferentes máquinas llamadas esclavos, cuya labor es reconocer texto en cada tarjeta.

Además del anterior, un módulo de consultas facilita al usuario el acceso a la información en las tarjetas mediante búsqueda textual. Debido a la inexactitud del reconocimiento se agrega funcionalidad para mejorar el texto por medios humanos.

Índice de contenido

Agradecimientos y Dedicatorias (archivo pdf, 35 kb)

Índices (archivo pdf, 48 kb)

Capítulo 1. Introducción (archivo pdf, 112 kb)

  • 1.1 Bibliotecas Digitales
  • 1.2 Proyecto Flora de China
  • 1.3 Las Tarjetas de Hu
  • 1.4 Organización del documento

Capítulo 2. Investigaciones Actuales en Reconocimiento de Patrones aplicado a texto (archivo pdf, 52 kb)

  • 2.1 Restauración y mejoramiento de documentos degradados para optimizar el reconocimiento
  • 2.2 El aislamiento de partes a reconocer
  • 2.3 El reconocimiento de caracteres aislados
  • 2.4 El reconocimiento de símbolos sin usar aislamiento
  • 2.5 La validación del desempeño del software de reconocimiento de texto

Capítulo 3. Sistemas OCR e ICR para grandes volúmenes de información (archivo pdf, 53 kb)

  • 3.1 Sistemas Públicos
  • 3.2 Sistemas Comerciales

Capítulo 4. Diseño de un sistema para reconocimiento y consulta de las tarjetas Hu (archivo pdf, 199 kb)

  • 4.1 HuProcessor
  • 4.2 HuSeeker

Capítulo 5. Implementación de HuSystem (archivo pdf, 272 kb)

  • 5.1 HuProcessor
  • 5.2 HuSeeker

Capítulo 6. Conclusiones (archivo pdf, 43 kb)

  • 6.1 Síntesis
  • 6.2 Resultados
  • 6.3 Estado Actual
  • 6.4 Trabajo a futuro

Referencias (archivo pdf, 43 kb)

Dircio Palacios Macedo, R. 1998. Reconocimiento y Consulta de Imágenes Textuales en Bibliotecas Digitales. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Diciembre. Derechos Reservados © 1998.