En muchas ocasiones se presentan problemas de regresión donde se desea estimar de manera simultánea más de un rasgo o variable real. En estos casos se pueden modelar tantos regresores como variables de salidas existan, lo cual desestima la dependencia condicional entre los pares variable de salida considerando cada problema independiente. Recientemente se ha demostrado que considerar esta dependencia mejora la capacidad predictiva de los modelos de aprendizaje. El elevado costo computacional de estos algoritmos, y la enorme cantidad de información almacenada en millones de bases de datos, ha traído consigo tiempos de procesamiento excesivamente grandes en la generación de estos modelos. Este hecho nos conlleva a abordar estos problemas desde un enfoque de Big Data. El objetivo de este artículo es ofrecer una panorámica sobre el estado actual de las principales propuestas de regresión con salidas múltiples y sus posibilidades de ser reformulados para enfrentar el trabajo en problemas con grandes volúmenes de datos. Además, se aborda la metodología seguida por la Regresión Linear Múltiple ya implementada en la plataforma Apache Spark que sentará las bases para definir nuevos modelos en este contexto. Finalmente, se exponen los principales métodos de optimización que emplean estos métodos y sus variantes desde Big Data.
In many cases regression problems with more than one objective feature can be present. In these cases, you can model as many regressors as output variables exist, which underestimates the conditional dependence between the variable output pairs considering each independent problem. Recently it has been shown that considering this dependency produces better results since in many problems the output variables yield results that are related to each other. The high computational cost of these algorithms, and the enormous amount of information stored in millions of databases, has resulted in excessively large processing times in the generation of these models, which implies the need to manage these problems from Big Data concept. The objective of this article is to provide an overview of the current state of the main regression proposals with multiple outputs and their possibilities of being reformulated to Large-Scale problems. Besides, the followed methodology by the Multiple Linear Regression already implemented in the Apache Spark platform is addressed. Finally, the main optimization techniques that use these methods and their variants from Big Data are exposed.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados