Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica

César González Pérez; José Ignacio Vidal Liy; Ana García García; Pablo Calleja

Ayuda

Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica

González-Pérez, César ^[1] ; Vidal Liy, José Ignacio ^[2] ; García García, Ana ^[2] ; Calleja Ibáñez, Pablo ^[3]
1. [1] Instituto de Ciencias do Patrimonio
  
  Instituto de Ciencias do Patrimonio
  
  Santiago de Compostela, España
2. [2] Centro de Ciencias Humanas y Sociales
  
  Centro de Ciencias Humanas y Sociales
  
  Madrid, España
3. [3] Universidad Politécnica de Madrid
  
  Universidad Politécnica de Madrid
  
  Madrid, España
Mostrar afiliaciones +
Localización: Revista española de documentación científica, ISSN-e 1988-4621, ISSN 0210-0614, Vol. 46, Nº. 3 (Revista Española de Documentación Científica; Vol), 2023
Idioma: español
Títulos paralelos:
- Automatic thematic classification of documents based on vocabularies and use frequencies. The case of scientific dissemination articles
Enlaces
- Texto completo
Resumen
- español
  A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista.
  
  Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español.
  
  Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.
- English
  It is often necessary to classify documents by assigning them a theme or topic from a series of predefined options. This work is usually done manually, by reading the document by a specialist. This manual process is tedious, requires time and resources, and is prone to bias and preferences of each specialist.
  
  As an alternative, this article presents an automatic thematic classification system, capable of classifying hundreds of documents in a few seconds, highly parameterized, and that does not require the specialists intervention. The system is based on predefined thematic vocabularies and frequencies of use of lexical forms, and assigns one or more priority topics to each document. The suggested approach has been developed and tested in the context of scientific dissemination articles in the Spanish language.
  
  Using this approach, it is possible to systematically classify large amounts of documents by topic, using fewer resources than doing it manually, and avoiding unknown biases. The approach has shown to be as effective as other proposals, but requires less computational resources.