El cloud-bursting (despliegue de nube híbrida que complementa temporalmente máquinas virtuales locales con máquinas vituales remotas) ha experimentado una rápida adopción entre los usuarios de análisis de big data. Sin embargo, conseguir un buen rendimiento en este tipo de despliegues supone un reto. Por una parte, Hadoop MapReduce está diseñado para planificar sus tareas cerca de los datos, por otra parte, existe una red de comunicación entre ambas nubes con un ancho de banda limitado. En esta tesis se abordan estos retos mediante la aportación de varias contribuciones que convergen a una solución holística. Concretamente, se aporta una herramienta de análisis que permite la posterior propuesta de estrategias de aprovechamiento eficiente de la localidad de los datos. Basándose en estas estrategias, que hacen factible el empleo de aplicaciones MapReduce iterativas, se contribuye con una metodología de predicción del tiempo de finalización, junto con un modelo de coste económico.
Cloud-bursting (complement on-premise virtual machines with temporary off-premise virtual machines) has seen a rapid adoption among big data analitycs users. However, in these type of deployments, performance is a challenge. On the one hand, Hadoop MapReduce is designed to schedule its tasks close to the data, on the other hand, there is a communication network between both clouds with a limited bandwidth. This thesis addresses these challenges through several contributions that converge towards a holistic solution. Specifically, this thesis provides an analysis tool that allows the subsequent proposal of strategies to efficiently use the locality of the data. Based on these strategies, which make feasible the use of iterative MapReduce applications, it contributes with a completion time prediction methodology, together with an economic cost model.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados