Arquitectura para crawling dirigido de información contenida en la web oculta

Manuel Álvarez Díaz

Ayuda

Arquitectura para crawling dirigido de información contenida en la web oculta

Autores: Manuel Álvarez Díaz
Directores de la Tesis: Carlos Alberto Pan Bermúdez (dir. tes.), Fidel Cacheda (dir. tes.)
Lectura: En la Universidade da Coruña ( España ) en 2007
Idioma: español
Tribunal Calificador de la Tesis: Álvaro Suárez Sarmiento (presid.), Fernando Bellas Permuy (secret.), Juan José Unzilla Galán (voc.), Carmen Guerrero López (voc.), Lidia Fuentes Fernández (voc.)
Materias:
- Matemáticas
  - Ciencia de los ordenadores
Enlaces
- Tesis en acceso abierto en: RUC
Resumen
- La WWW (World Wide Web) constituye el mayor repositorio de información distribuida y heterogénea jamás construido, En la Web, como en cualquier biblioteca, tan importante como el almacenamiento de la información es disponer de un sistema que permita localizar, acceder y recopilar la que satisface las necesidades de un usuario.
  
  La aproximación utilizada más habitualmente para recopilar y localizar información en Internet la constituyen los buscadores basados en técnicas de crawling. Los crawlers son programas software capaces de recorrer la Web automáticamente, recopilando las páginas accedidas para construir un índice que permita búsquedas sobre su contenido.
  
  Pueden distinguirse dos tipos de estrategias de crawling: crawling global y crawling dirigido. Las tareas de crawling dirigido están orientadas a un propósito específico. Este tipo de tareas suelen aparecer en el ámbito corporativo y presentan requisitos más complejos que los que pueden satisfacerse con los buscadores convencionales.
  
  Sin embargo, los crawlers actuales, tanto globales como dirigidos, sólo pueden acceder a la parte de la Web que se encuentra publicada y enlazada como páginas estáticas. Aunque estas páginas representan una gran cantidad de información, constituyen sólo una pequeña porción de toda la información web disponible. Existe gran cantidad de información que es generada dinámicamente por un servidor en respuesta a acciones del usuario. El ejemplo más paradigmático lo constituyen las páginas generadas como respuesta a una consulta efectuada por un usuario sobre un formulario web. A esta porción de la Web suele denominársele 'Web Oculta' (Hidden Web) o 'Web Profunda' (Deep Web).

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: