Ayuda
Ir al contenido

Dialnet


Open Data for Public Administration: Exploitation and semantic organization of institutional web content

  • Autores: Rosana Montañés Fandos, Paola Peña Ospina, Rocío Aznar, Rafael del Hoyo Alonso
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 61, 2018, págs. 155-158
  • Idioma: inglés
  • Títulos paralelos:
    • Datos Abiertos para la Administración Pública: Explotación y organización semántica del contenido web institucional
  • Enlaces
  • Resumen
    • español

      El proyecto presentado, financiado por el Gobierno de Aragón, se enmarca dentro de la iniciativa de ‘Open Data’ promovida por dicho organismo. Dada la cantidad de información no estructurada relacionada con el Gobierno de Aragón, publicada en Internet de forma no estandarizada y descentralizada, surge la necesidad de recopilarla sistemáticamente para ser ofrecida a los colectivos de interés desde un único punto de acceso, pública y estructuradamente. En este contexto el objetivo del proyecto ‘Aragón Open Data’ es extraer, organizar, almacenar y mantener actualizada la información web de la administración, mediante el uso de tecnologías semánticas y del lenguaje. Concretamente, se realiza un crawling exhaustivo de páginas web para extraer los datos textuales sobre los cuáles se aplican técnicas basadas en ontologías y de procesamiento de lenguaje natural (PLN). Finalmente se almacenan los resultados en bases de datos NoSQL, permitiendo su futura explotación de manera sencilla, abierta y transparente al ciudadano. Las técnicas de PLN utilizadas en el proyecto incluyen el reconocimiento y clasificación de entidades nombradas (NERC) y la clasificación semántica y resumen de textos.

    • English

      The project presented has been financed by Government of Aragon and is part of the `Open Data' initiative promoted by that organization. Given the amount of unstructured information related to the Government of Aragon currently published on the Internet, with slightly or no standardization and decentralized, it emerges the need to gather it systematically to be offered to all interested collectives from a single access point in a public and structured way. Within this context, `Aragon Open Data' project aims to collect, organize, store and maintain updated, Administration's web information by means of human language and semantic technologies. Firstly, crawling is performed over websites in order to retrieve textual data over which Natural Language Processing (NLP) and ontology-based techniques are applied. Thereafter, results are stored into NoSQL databases, allowing future open access and simple data exploitation. NLP techniques used in the project involve named-entities recognition and classification (NERC) and texts semantic classification and summarization.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno