Sistema OCR para la extracción de información digitalizada proveniente de máquinas de escribir

Devorat Cespedes Rodríguez; José Ernesto Placeres La O

Ayuda

Sistema OCR para la extracción de información digitalizada proveniente de máquinas de escribir

Autores: Devorat Cespedes Rodríguez, José Ernesto Placeres La O
Localización: Serie Científica de la Universidad de las Ciencias Informáticas, ISSN-e 2306-2495, Vol. 10, Nº. 11, 2017, págs. 24-31
Idioma: español
Títulos paralelos:
- OCR system for the extraction of digitized information from typewriters
Enlaces
- Texto completo (pdf)
Resumen
- español
  La empresa XETID como parte de las empresas cubanas que se dedican al desarrollo de la informática tiene contratos con diferentes instituciones en las cuales se ha detectado la necesidad de gestionar la información presentes en los documentos generados por las mismas, entre las cuales se encuentra la búsqueda de información en pdf y en documentos digitalizados provenientes de máquinas de escribir, a estas empresas no contar con un sistema de búsqueda que permita la extracción del contenido(texto) presente en las imágenes esto evita la posibilidad de realizar búsquedas por el contenido presente en las mismas así como la aplicación de técnicas de minerías de textos para el resumen o clasificación del contenido. La realización de un sistema que permita la extracción de la información presente en los documentos permitiendo realizar tales operaciones, las cuales tienen un grado alto de complejidad debido a que dependen en gran medida de que los escáneres con que se realizaron la captura no poseen la suficiente calidad como para poder realizar el proceso de digitalización esto conlleva a que se tenga que también realizar un estudio muy profundo en el área de las técnicas de digitalización de imágenes para poder obtener los datos presentes en los documentos digitalizados.
- English
  The company XETID as part of the Cuban companies that are dedicated to the development of informationtechnology have contracts with different institutions in which the need to manage the information present in thedocuments generated by them has been detected, among which is the search of information in pdf and digitizeddocuments from typewriters, these companies do not have a search system that allows the extraction of the content (text) present in the images, this avoids the possibility of searching for the content present in the as well as theapplication of text mining techniques for the summary or classification of the content. The realization of a system thatallows the extraction of the information present in the documents allowing to perform such operations, which have ahigh degree of complexity due to the fact that they depend to a great extent on the fact that the scanners with whichthe capture was made do not have enough quality as to be able to carry out the process of digitalization this entails to that one also has to carry out a very deep study in the area of the digitalization techniques of images to be able toobtain the data present in the digitized documents.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: