1. Introducción o motivación de la tesis: La extracción de conocimiento a partir de datos en bruto es un proceso complejo y costoso de varias fases que requiere de una serie de conocimientos técnicos en distintas áreas como aprendizaje automático, minería de datos, estadística o bases de datos, entre otras. Dado este problema, el objetivo de esta tesis doctoral es el de democratizar la ciencia de datos reduciendo la cantidad de conocimiento requerido en la aplicación de estas técnicas y, en última instancia, haciéndola accesible para los usuarios finales.
Una vía para alcanzar dicha democratización es la automatización de las distintas fases que componen el proceso de ciencia de datos. En este contexto se encuentra el área en la que se enmarca esta tesis doctoral, Automated Machine Learning (AutoML) [1]. AutoML es un campo amplio que abarca una gran cantidad de trabajos cuyo objetivo es automatizar el proceso de aprendizaje automático mediante la realización de tareas como la selección de algoritmos [2], la optimización de hiperparámetros [3], la búsqueda de arquitecturas neuronales [4] o la composición automática de workflows [5,6]. No obstante, estas tareas proporcionan distintos niveles de soporte al proceso de extracción de conocimiento. Por ejemplo, la optimización de los hiperparámetros de un algoritmo ya seleccionado obliga a conocer qué algoritmo y secuencia de preprocesado son más adecuados para un determinado conjunto de datos. Por el contrario, las propuestas que optimizan un workflow permiten a sus usuarios obviar esos aspectos. Es por ello que, en pos de la democratización, esta tesis se centra en el estudio del problema de composición automática de workflows, que también incluye la selección del modelo más apropiado y la hiperparametrización de los algoritmos que componen el workflow.
2.Contenido de la investigación: La primera tarea abordada durante la realización de esta tesis doctoral ha sido la realización un estudio de la literatura de AutoML. Los resultados de dicho estudio han sido plasmados en una revisión sistemática de la literatura. En concreto se han analizado un total de 447 estudios primarios desde diferentes perspectivas: las fases del proceso de extracción de conocimiento que se automatizan, las tareas que se llevan a cabo para realizar dicha automatización y las técnicas empleadas. Además, dada la heterogeneidad del área, se ha propuesto una taxonomía que permite clasificar los trabajos del área en base a las tres dimensiones ya mencionadas.
A continuación, se realizó una extensa comparativa experimental de diez frameworks software para la optimización con metaheurísticas. El objetivo de este trabajo es el determinar qué framework es el más apropiado para el posterior desarrollo del modelo evolutivo que abordará el problema de la composición automática de workflows. Entre las características que se han estudiado para cada framework cabe destacar: el tiempo de ejecución y la memoria empleada ante diferentes configuraciones, la calidad del código, el número de metaheurísticas implementadas, y la documentación y el soporte de los mismos.
Utilizando DEAP, uno de los diez frameworks estudiados, se desarrolló una propuesta de programación genética gramatical para la composición automática de workflows llamada EvoFlow. El uso de una gramática aporta una gran flexibilidad a la propuesta ya que permite añadir y eliminar algoritmos, así como valores de sus hiperparámetros, del espacio de búsqueda. Además, a diferencia de otras propuestas que imponen una estructura a los workflows bastante estricta, EvoFlow únicamente establece que el último debe ser un algoritmo que genere un modelo predictivo (clasificación) y que, opcionalmente, podrá ser precedido por un número arbitrario de algoritmos de preprocesado de cualquier tipo (p.ej. selección de características o normalización). Además, EvoFlow presenta dos componentes únicos que lo diferencian del resto de propuestas evolutivas: (1) operadores de cruce y mutación especialmente diseñados para optimizar workflows; y (2) un mecanismo que promueve la generación de workflows que hagan predicciones diversas para que, una vez finalice el proceso evolutivo, se construya un ensemble con mayores capacidades de generalización.
Por último, utilizando de nuevo un algoritmo de programación genética gramatical, se desarrolló un modelo interactivo que incorpora las opiniones y necesidades del humano al proceso evolutivo. En concreto, esta propuesta permite al humano modificar la gramática durante la ejecución para eliminar algoritmos y/o valores de hiperparámetros en base a sus preferencias. Así pues, habrá usuarios que prioricen la capacidad predictiva de los workflows, mientras que otros puedan priorizar el tiempo de ejecución o la interpretabilidad de los modelos resultantes.
3.Conclusión: Con el objetivo de democratizar el proceso de ciencia de datos, esta tesis se enmarca en el área de AutoML, centrándose en el problema de la composición automática de workflows. Las principales contribuciones de esta tesis son una exhaustiva revisión sistemática del área de AutoML, una comparativa experimental de diez framework software para la optimización con metaheurísticas y dos modelos evolutivos basados en programación genética gramatical para la composición automática de workflows. El primero de estos modelos incorpora una serie de elementos especialmente diseñados para optimizar workflows de aprendizaje automático, mientras que el segundo es un modelo interactivo en el que el usuario modifica, durante la ejecución, el espacio de soluciones eliminando algoritmos o valores de hiperparámetros.
Ambas propuestas evolutivas han sido validadas empíricamente utilizando rigurosos marcos experimentales, respaldando además las conclusiones extraídas con diferentes test estadísticos. Para validar la primera propuesta se han llevado a cabo dos experimentos. En el primero se ha demostrado la utilidad de los nuevos operadores genéticos y del mecanismo de diversidad, especialmente cuando se combinan, mientras que en el segundo EvoFlow demostró ser superior al estado del arte en términos de capacidad de predictiva. En lo que respecta a la segunda propuesta, de nuevo, se realizaron dos experimentos. En el primero de ellos se simularon usuarios con distintos perfiles dando más o menos importancia a la capacidad predictiva de los workflows y al tiempo de entrenamiento. Este experimento, que se llevó a cabo para poder realizar una gran cantidad de ejecuciones con distintos conjuntos de datos, se realizó para estudiar cómo afectaba al proceso evolutivo la redefinición del espacio de soluciones en tiempo de ejecución. Por su parte, el segundo experimento consistió en un estudio con 20 participantes con distinta experiencia en el área del aprendizaje automático. La mayoría de los participantes reconocieron la utilidad del enfoque interactivo. Además, varios de ellos consiguieron guiar al algoritmo evolutivo a regiones del espacio de búsqueda inexploradas por el enfoque meramente automático, obteniendo resultados con una mayor capacidad predictiva y reduciendo drásticamente el tiempo de ejecución del algoritmo evolutivo.
4. Bibliografía: [1] Hutter, F., Kotthoff, L., & Vanschoren, J. (2019). Automated machine learning: methods, systems, challenges (p. 219). Springer Nature.
[2] Rice, J. R. (1976). The algorithm selection problem. In Advances in computers (Vol. 15, pp. 65-118). Elsevier.
[3] Bischl, B., Binder, M., Lang, M., Pielok, T., Richter, J., Coors, S., Thomas, J., Ullmann, T., Becker, M., Boulesteix, A., Deng, D. & Lindauer, M. (2023). Hyperparameter optimization: Foundations, algorithms, best practices, and open challenges. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 13(2), e1484.
[4] Elsken, T., Metzen, J. H., & Hutter, F. (2019). Neural architecture search: A survey. The Journal of Machine Learning Research, 20(1), 1997-2017.
[5] Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M., & Hutter, F. (2015). Efficient and robust automated machine learning. Advances in neural information processing systems, 28.
[6] Olson, R. S., Bartley, N., Urbanowicz, R. J., & Moore, J. H. (2016, July). Evaluation of a tree-based pipeline optimization tool for automating data science. In Proceedings of the genetic and evolutionary computation conference 2016 (pp. 485-492).
© 2001-2024 Fundación Dialnet · Todos los derechos reservados