Sara Lana Serrano, Julio Villena Román, Sonia Collada Pérez, José Carlos González Cristobal
En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte.
This paper discusses several techniques for the automatic generation of rules to be used in a novel hybrid method for text categorization. This approach combines a machine learning algorithm along with a different rule-based expert systems in cascade used to filter and re-rank the output of the base model provided by the previous classifier. This paper describes an implementation based on kNN algorithm and a basic rule language that expresses lists of terms appearing in the text. The popular Reuters-21578 news corpus is used for testing. Results show that the proposed methods for automatic rule generation achieve precision values that are very similar to the ones achieved by manually defined rule sets, and that this hybrid approach achieves a precision that is comparable to other top state-of-the-art methods.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados