Ayuda
Ir al contenido

Dialnet


Resumen de Computación evolutiva multi-objetivo para selección de atributos y clasificación interpretable

Carlos Martínez Cortés

  • español

    En el contexto del aprendizaje supervisado, en esta Tesis Doctoral se han desarrollado modelos de optimización multi-objetivo para los problemas de selección de atributos y de clasificación interpretable, así como algoritmos evolutivos multi-objetivo para sus resoluciones. El problema de la selección de atributos se enmarca dentro de un proceso más general que es la reducción de la dimensionalidad de los datos. Este proceso es fundamental hoy día debido a la gran cantidad de datos que cada vez más se generan con el desarrollo imparable de las tecnologías de la información. El problema de la clasificación o predicción interpretable juega también un papel crucial hoy día, ya que no siempre es aceptable un modelo automático si éste no es entendible y validable por un experto, sobre todo en contextos donde la ética profesional lo requiere, como por ejemplo, la medicina o los negocios. Por otro lado, la Computación Evolutiva Multi-objetivo se ha mostrado como un metaheurística muy potente para resolver ambos tipos de problemas, y aunque no garantiza soluciones óptimas, éstas pueden resultar más satisfactorias que las proporcionadas con las técnicas clásicas de búsqueda, optimización y aprendizaje.

    Los algoritmos evolutivos multi-objetivo desarrollados en esta tesis han sido implementados en la plataforma Weka de machine learning con los nombres MultiObjectiveEvolutionarySearch y MultiObjectiveEvolutionaryFuzzyClassifier respectivamente. Para el problema de selección de atributos, la estrategia de búsqueda MultiObjectiveEvolutionarySearch puede combinarse con distintos evaluadores para configurar métodos de selección de atributos tanto filter como wrapper, con diferentes medidas estadísticas, clasificadores y métricas de evaluación, lo que hace que la técnica sea muy flexible y robusta. Los algoritmos ENORA y NSGA-II han sido implementados como estrategia de búsqueda, resolviendo un problema de optimización booleana con los objetivos de precisión y de cardinalidad de los subconjuntos de atributos. Para el problema de clasificación interpretable, el clasificador MultiObjectiveEvolutionaryFuzzyClassifier permite construir clasificadores basados en reglas, tanto fuzzy (gaussianos) como crisp, con datos numéricos y categóricos, en problemas de clasificación multi-clase, permitiendo configurar distintos evaluadores en la fase de aprendizaje. Los algoritmos ENORA y NSGA-II han sido implementados para la construcción de clasificadores basados en reglas, resolviendo un problema de optimización combinatoria mixta con restricciones, con los objetivos de precisión y de complejidad del conjunto de reglas, y restricciones de similaridad de los conjuntos fuzzy gaussianos.

    Para los experimentos se han utilizado dos campos de fundamentales de aplicación, en el screening virtual para el descubrimiento de fármacos, y en la gestión de las habilidades profesionales de agentes en un centro de contacto con datos extraídos de la empresa GAP S.R.L. en el norte de Italia. También se han utilizado bases de datos públicas del UCI Machine Learning Repository por razones de reproducibilidad. Los resultados han sido analizados siguiendo metodologías propias del análisis inteligente de datos, y las conclusiones están abaladas por tests estadísticos, los cuales muestran un excelente comportamiento de las técnicas propuestas tanto para selección de atributos como para clasificación basada en reglas, en comparación con otras técnicas, algoritmos y clasificadores del estado del arte ampliamente consolidados.

  • English

    In the context of supervised learning, in this Doctoral Thesis, multi-objective optimization models have been developed for the problems of feature selection and interpretable classification, as well as multi-objective evolutionary algorithms for their resolutions. The problem of feature selection is framed within a more general process that is the dimensionality reduction of data. This process is fundamental today due to the large amount of data that is increasingly generated with the unstoppable development of information technologies. The problem of interpretable classification (or prediction) also plays a crucial role today, since an automatic model is not always acceptable if it is not understandable and validated by an expert, especially in contexts where professional ethics requires it, such as, for example, medicine or business. On the other hand, the Multi-objective Evolutionary Computation has been shown as a very powerful metaheuristic to solve both types of problems, and although it does not guarantee optimal solutions, these can be more satisfactory than those provided with the classic search, optimization and learning techniques.

    The multi-objective evolutionary algorithms developed in this thesis have been implemented in the Weka platform of machine learning with the names MultiObjectiveEvolutionarySearch and MultiObjectiveEvolutionaryFuzzyClassifier respectively. For the feature selection problem, the search strategy MultiObjectiveEvolutionarySearch can be combined with diferent evaluators to configure feature selection methods both filter and wrapper, with diferent statistical measures, classifiers and evaluation metrics, which makes the technique very exible and robust. The algorithms ENORA and NSGA-II have been implemented as search strategy, solving a boolean optimization problem with objectives of precisión and attribute subset cardinality. For the problem of interpretable classification, the classifier MultiObjectiveEvolutionaryFuzzyClassifier allows to build rule-based classi_ers, both fuzzy (Gaussian) and crisp, with numerical and categorical data, in multi-class classification problems, allowing to configure diferent evaluators in the learning phase. The algorithms ENORA and NSGA-II have been again implemented for the construction of rule-based classifiers, solving a mixed combinatorial constrained optimization problema in this case, with the objectives of precision and rule set complexity, and similarity constraints of Gaussian fuzzy sets.

    Two fundamental application areas have been used for the experiments, in virtual screening for the discovery of drugs, and for the management of the professional skills of agents in a contact center with data extracted from the company GAP SRL in the north of Italy. Public databases of the UCI Machine Learning Repository have also been used for reproducibility reasons. The results have been analyzed following the methodologies of intelligent analysis of data, and the conclusions are supported by statistical tests, which show an excellent behavior of the proposed techniques both for feature selection and for rule-based classification, in comparison with other techniques, algorithms and classifiers of the state-of-the-art widely consolidated.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus