Utilizando imágenes para mejorar los motores de búsqueda textuales

Sergio Rodríguez Vaamonde; Lorenzo Torresani; Andrew Fitzgibbon

Ayuda

Utilizando imágenes para mejorar los motores de búsqueda textuales

Sergio Rodriguez-Vaamonde ^[1] ; Lorenzo Torresani ^[2] ; Andrew Fitzgibbon ^[3]
1. [1] Tecnalia
  
  Tecnalia
  
  Derio, España
2. [2] Dartmouth College
  
  Dartmouth College
  
  Town of Hanover, Estados Unidos
3. [3] Microsoft Research Cambridge
Mostrar afiliaciones +
Localización: DYNA new technologies, ISSN-e 2386-8406, Vol. 1, Nº. 1, 2014
Idioma: español
Títulos paralelos:
- Using images to improve textual search engines
Texto completo no disponible (Saber más ...)
Resumen
- español
  En la actualidad, los motores de búsqueda son el centro de internet y gracias a ellos es posible encontrar la información relevante para los usuarios. Los motores actuales se centran en la utilización del texto de las páginas HTML para encontrar documentos relevantes cuando un usuario realiza una búsqueda. Para ello, estos sistemas computan la relevancia del contenido de una página en base al análisis textual así como otros elementos de reputación. A pesar de la complejidad de los motores de búsqueda actuales, a la hora de calcular la relevancia de una página web éstos no tienen en cuenta la información multimedia presente en cada página web. Se ha demostrado que la información multimedia cada vez está más presente en internet y además su relevancia es alta.
  
  En este artículo proponemos mejorar los motores de búsqueda textuales en base un sistema escalable que permite incorporar información del contenido visual de las imágenes de cada página web y regenerar la lista de páginas web relevantes que se le muestra al usuario. Para ello, proponemos un modelo de representación de cada página web que permite agregar la información textual y visual, además de proponer un sistema de reordenación de las listas de resultados.
  
  Para demostrar el funcionamiento del sistema, se han realizado pruebas exhaustivas a escala web con más de 20 millones de páginas web, varios millones de imágenes y más de 200 evaluadores humanos que han establecido manualmente la relevancia de los resultados generados.
- English
  Nowadays search engines are at the core of the internet and they are means to retrieve the most relevant information for the users. Actual search engines are focused on using the textual information of the HTML pages in order to find relevant documents given a user query. To this end, these systems compute the relevance of a webpage based on a textual analysis and other reputation elements (e.g. links). Despite the extreme complexity of current search engines, these do not consider the multimedia information present in webpages., although it has been demonstrated that the multimedia information is very relevant for the users.
  
  In this work we propose to improve textual search engines using a novel scalable system that allows the search engine to aggregate textual information and visual information of the content of the images that are present in the documents. To this end, we propose a representation model and a system to rerank the search engines result lists.
  
  In order to validate the propose approach, we show the results on exhaustive tests done at Web-scale using more than 20 million pages, several million images and more than 200 human evaluators that had judged manually the output lists of a base search engine and our approach.