Ayuda
Ir al contenido

Dialnet


Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica

    1. [1] Instituto de Ciencias do Patrimonio

      Instituto de Ciencias do Patrimonio

      Santiago de Compostela, España

    2. [2] Centro de Ciencias Humanas y Sociales

      Centro de Ciencias Humanas y Sociales

      Madrid, España

    3. [3] Universidad Politécnica de Madrid

      Universidad Politécnica de Madrid

      Madrid, España

  • Localización: Revista española de documentación científica, ISSN-e 1988-4621, ISSN 0210-0614, Vol. 46, Nº. 3 (Revista Española de Documentación Científica; Vol), 2023
  • Idioma: español
  • Títulos paralelos:
    • Automatic thematic classification of documents based on vocabularies and use frequencies. The case of scientific dissemination articles
  • Enlaces
  • Resumen
    • español

      A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista.

      Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español.

      Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.

    • English

      It is often necessary to classify documents by assigning them a theme or topic from a series of predefined options. This work is usually done manually, by reading the document by a specialist. This manual process is tedious, requires time and resources, and is prone to bias and preferences of each specialist.

      As an alternative, this article presents an automatic thematic classification system, capable of classifying hundreds of documents in a few seconds, highly parameterized, and that does not require the specialists intervention. The system is based on predefined thematic vocabularies and frequencies of use of lexical forms, and assigns one or more priority topics to each document. The suggested approach has been developed and tested in the context of scientific dissemination articles in the Spanish language.

      Using this approach, it is possible to systematically classify large amounts of documents by topic, using fewer resources than doing it manually, and avoiding unknown biases. The approach has shown to be as effective as other proposals, but requires less computational resources.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno