Ayuda
Ir al contenido

Dialnet


Text detection and recognition in natural images using computer vision techniques

  • Autores: Álvaro González Arroyo
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2013
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Miguel Angel Sotelo Vázquez (presid.), Miguel Angel García Garrido (secret.), Enrique Cabello Pardos (voc.), Majid Mirmehdi (voc.), Arturo de la Escalera Hueso (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • español

      El reconocimiento de texto en imágenes reales ha centrado la atención de muchos investigadores en todo el mundo en los últimos años. El motivo es el incremento de productos de bajo coste como teléfonos móviles o Tablet PCs que incorporan dispositivos de captura de imágenes y altas capacidades de procesamiento. Con estos antecedentes, esta tesis presenta un método robusto para detectar, localizar y reconocer texto horizontal en imágenes diurnas tomadas en escenarios reales. El reto es complejo dada la enorme variabilidad de los textos existentes y de las condiciones de captura en entornos reales. Inicialmente se presenta una revisión de los principales trabajos de los últimos años en el campo del reconocimiento de texto en imágenes naturales. Seguidamente, se lleva a cabo un estudio de las características más adecuadas para describir texto respecto de objetos no correspondientes con texto. Típicamente, un sistema de reconocimiento de texto en imágenes está formado por dos grandes etapas. La primera consiste en detectar si existe texto en la imagen y de localizarlo con la mayor precisión posible, minimizando la cantidad de texto no detectado así como el número de falsos positivos. La segunda etapa consiste en reconocer el texto extraído. El método de detección aquí propuesto está basado en análisis de componentes conexos tras aplicar una segmentación que combina un método global como MSER con un método local, de forma que se mejoran las propuestas del estado del arte al segmentar texto incluso en situaciones complejas como imágenes borrosas o de muy baja resolución. El proceso de análisis de los componentes conexos extraídos se optimiza mediante algoritmos genéticos. Al contrario que otros sistemas, nosotros proponemos un método recursivo que permite restaurar aquellos objetos correspondientes con texto y que inicialmente son erróneamente descartados. De esta forma, se consigue mejorar en gran medida la fiabilidad de la detección. Aunque el método propuesto está basado en análisis de componentes conexos, en esta tesis se utiliza también la idea de los métodos basados en texturas para validar las áreas de texto detectadas. Por otro lado, nuestro método para reconocer texto se basa en identificar cada caracter y aplicar posteriormente un modelo de lenguaje para corregir las palabras mal reconocidas, al restringir la solución a un diccionario que contiene el conjunto de posibles términos. Se propone una nueva característica para reconocer los caracteres, a la que hemos dado el nombre de Direction Histogram (DH). Se basa en calcular el histograma de las direcciones del gradiente en los pixeles de borde. Esta característica se compara con otras del estado del arte y los resultados experimentales obtenidos sobre una base de datos compleja muestran que nuestra propuesta es adecuada ya que supera otros trabajos del estado del arte. Presentamos también un método de clasificación borrosa de letras basado en KNN, el cual permite separar caracteres erróneamente conectados durante la etapa de segmentación. El método de reconocimiento de texto propuesto no es solo capaz de reconocer palabras, sino también números y signos de puntuación. El reconocimiento de palabras se lleva a cabo mediante un modelo de lenguaje basado en inferencia probabilística y el British National Corpus, un completo diccionario del inglés británico moderno, si bien el algoritmo puede ser fácilmente adaptado para ser usado con cualquier otro diccionario. El modelo de lenguaje utiliza una modificación del algoritmo forward usando en Modelos Ocultos de Markov. Para comprobar el rendimiento del sistema propuesto, se han obtenido resultados experimentales con distintas bases de datos, las cuales incluyen imágenes en diferentes escenarios y situaciones. Estas bases de datos han sido usadas como banco de pruebas en la última década por la mayoría de investigadores en el área de reconocimiento de texto en imágenes naturales. Los resultados muestran que el sistema propuesto logra un rendimiento similar al del estado del arte en términos de localización, mientras que lo supera en términos de reconocimiento. Con objeto de mostrar la aplicabilidad del método propuesto en esta tesis, se presenta también un sistema de detección y reconocimiento de la información contenida en paneles de tráfico basado en el algoritmo desarrollado. El objetivo de esta aplicación es la creación automática de inventarios de paneles de tráfico de países o regiones que faciliten el mantenimiento de la señalización vertical de las carreteras, usando imágenes disponibles en el servicio Street View de Google. Se ha creado una base de datos para esta aplicación. Proponemos modelar los paneles de tráfico usando apariencia visual en lugar de las clásicas soluciones que utilizan bordes o características geométricas, con objeto de detectar aquellas imágenes en las que existen paneles de tráfico. Los resultados experimentales muestran la viabilidad del sistema propuesto.

    • English

      Reading text in real-world scene images has focused the attention of many researchers all over the world during the last few years. The reason is the increasingly availability of cheap image-capturing devices in low-cost products such as smartphones and Tablet PCs. For this reason, this thesis presents a robust method to detect, locate and recognize horizontally-aligned text in natural images taken in real-world scenarios at daytime. This is a complex challenge due to the huge variability of text appearance and the capturing conditions in real scenarios. Initially a review of the main works of the last years in the field of text reading in real-world scene images is presented. Then, we carry out a study of the most suitable features to describe text versus non-text components.

      A computer vision system for reading text in images typically is composed of two main stages. Firstly, a text location method is applied in order to detect if text is present in the image and to locate it with the highest precision possible and minimizing the amount of undetected text as well as the number of false positives. Secondly, a text recognition algorithm is applied in order recognize the extracted text.

      The text location method here proposed is based on a connected-component analysis applied after a segmentation process, which combines a global method like MSER with a locally adaptive thresholding algorithm that improves the existing approaches by segmenting text even when blur motion is present in the images or if their resolution is too small. The connected component analysis process is optimized using genetic algorithms.

      Unlike other methods, we also propose a recursive method to restore character connected components initially erroneously discarded. This allows to improve the accuracy of the detection. Although the proposed system is based on connected component analysis, some ideas used on texture-based methods are also used in our approach.

      On the other hand, our approach to recognize text is based on identifying single characters and then applying a language model to correct misspelled words, constraining the output to a dictionary of all the possible terms. A new feature based on gradient direction histogramming, which we name as Direction Histogram (DH), is proposed to characterize single letters. This new feature is compared to other state-of-the-art features and the experimental results obtained on a challenging dataset show that the proposed feature is more than adequate as it outperforms the results achieved in the state of the art. We present a fuzzy classification method based on KNN, which is useful to separate characters that can be wrongly connected during the segmentation process. The recognition method here proposed is able to recognize not only words, but also numbers and punctuation marks. The word recognition is carried out using a language model based on probabilistic inference on the British National Corpus, a dictionary of modern British English, although the algorithm can be easily adapted to be used with any other dictionary. The language model uses a modification of the forward algorithm used in Hidden Markov Models (HMMs).

      To check the performance of the proposed system, experimental results have been obtained with several datasets that include images in different scenarios and situations.

      These datasets have been used as a benchmark for most of the researchers in the area of text reading in natural images during the last decade. The results show that the proposed system achieves state-of-the-art performance in terms of text location, while it overpass the state-of-the-art results in text recognition.

      In order to show the applicability of the method proposed in this thesis, a system to detect and recognize traffic panels based on the developed text reading method is presented in this thesis. The aim of this application is to automatically create inventories of traffic panels of regions or countries that facilitate traffic signposting maintenance using images downloaded from Google Street View service. A dataset has been created for this purpose. We propose to model traffic panels using visual appearance instead of the classic approaches that use edge detection or geometrical characteristics, in order to detect the images where traffic panels are present. The experimental results show the viability of the proposed system


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno