Tesis profesional presentada por
Licenciatura en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales. Escuela de Ingeniería, Universidad de las Américas Puebla.
Jurado Calificador
Presidente: Dr. Juan Manuel Ahuactzin Larios
Vocal y Director: Dr. J. Alfredo Sánchez
Huitrón
Secretario: Dra. Ingrid Kirschning Albers
Cholula, Puebla, México a 9 de diciembre de 1998.
Las bibliotecas digitales abarcan una gran área de investigación en la que convergen múltiples disciplinas. Las facilidades que dichas bibliotecas proveen a sus usuarios incluyen y extienden los servicios provistos por las bibliotecas convencionales. Entre estas están las consultas, que prometen un aprovechamiento mayor de la información, dando al usuario opciones de referenciar hasta la más mínima unidad de información contenida en su acervo, que para el caso de las imágenes que contienen texto, son los caracteres que las componen. El reconocimiento óptico de caracteres (OCR) es una herramienta que permite transformar éstos datos en información útil. Los sistemas comerciales de reconocimiento que existen actualmente no siempre se adaptan al gran volúmen de información a ser procesada para la construcción de bibliotecas digitales. Por ello, es necesario crear alternativas que se adapten a la tarea.
En la biblioteca digital florística, cuya misión es fomentar la investigación y el conocimiento general de las plantas, hay colecciones voluminosas de documentos de texto que son de gran utilidad para la investigación botánica. Esta tesis conjunta un sistema de procesamiento en paralelo para el reconocimiento de tarjetas con texto y un módulo de consultas. La conjunción de ambos se denominó HuSystem y su objetivo es facilitar al usuario las consultas de 350,000 tarjetas que contienen información acerca de la flora de China.
Este trabajo presenta un diseño y la implementación de una herramienta que permite introducir el texto de las tarjetas en la base de datos. Esta herramienta aprovecha el poder de cómputo en paralelo, al distribuir el trabajo a diferentes máquinas llamadas esclavos, cuya labor es reconocer texto en cada tarjeta.
Además del anterior, un módulo de consultas facilita al usuario el acceso a la información en las tarjetas mediante búsqueda textual. Debido a la inexactitud del reconocimiento se agrega funcionalidad para mejorar el texto por medios humanos.
Agradecimientos y Dedicatorias (archivo pdf, 35 kb)
Capítulo 1. Introducción (archivo pdf, 112 kb)
Capítulo 3. Sistemas OCR e ICR para grandes volúmenes de información (archivo pdf, 53 kb)
Capítulo 5. Implementación de HuSystem (archivo pdf, 272 kb)
Capítulo 6. Conclusiones (archivo pdf, 43 kb)
Dircio Palacios Macedo, R. 1998. Reconocimiento y Consulta de Imágenes Textuales en Bibliotecas Digitales. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Diciembre. Derechos Reservados © 1998.