Ayuda
Ir al contenido

Dialnet


Resumen de Recuperación de información para artículos científicos soportada en el agrupamiento de documentos XML

Damny Magdaleno, Ivett E. Fuentes, Michel Cabezas, María M García

  • español

    Cada día más datos electrónicos en formato semiestructurado, específicamente XML, se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Por tal motivo la gestión de información se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En el laboratorio de Inteligencia Artificial de la Universidad Central “Marta Abreu” de las Villas se han obtenido varios sistemas que permiten manipular la información, como: SATEX, GARLucene y LucXML, este último da tratamiento de forma específica a los documentos XML, aunque no garantiza gestionar los documentos desde un repositorio en la red. En este trabajo se implementó una herramienta Web que usa las técnicas de recuperación inteligente, soportada en un algoritmo de agrupamiento de documentos XML que combina el contenido y la estructura existente en estos. Los principales resultados son: (1) el uso de la metodología para el agrupamiento de los documentos recuperados; (2) la utilización de herramientas especializadas en recuperación de información y manipulación de documentos; (3) al evaluar el sistema con datos representativos se obtuvieron resultados favorables lo que corrobora la validez de la implementación realizada.

  • English

    Every day more electronic data in semistructured format, specifically XML, are available on the World Wide Web, intranets, and other media. By this, the information management becomes increasingly complex and challenging, especially since document collections are generally heterogeneous, large, diverse and dynamic. Overcoming these challenges is essential to give scientists better conditions to manage the time required to process scientific information. In the Artificial Intelligence Laboratory of Universidad Central “Marta Abreu” de Las Villas, they have obtained several systems that allow to manipulate information such as: SATEX, GARLucene and LucXML, the last one treats specifically to XML documents although it does not guarantee to manage the documents from a repository in the network. In this paper, a Web tool that uses smart recovery techniques, supported by a clustering algorithm of XML documents that combine existing content and structure these are implemented. The main results are: (1) the use of the methodology for the clustering of documents retrieved; (2) the use of specialized tools in information retrieval and document manipulation; (3) to evaluate the system with representing data, favorable results were achieved which confirms the validity of the implementation done.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus