Esta tesis tiene como objetivo general el diseño y creación de una plataforma cloud para la gestión de estructuras de rejillas (teselas) multiescalares asimétricas. Las rejillas multiescalares abstraen y homogenizan la información geográfica en una estructura de información que facilita el análisis temático multicriterio con técnicas de procesamiento distribuido Big Data y Machine Learning, superando las dificultades que estas metodologías presentan sobre datos geográficos, así como proporcionan un medio para el almacenamiento eficiente de información y su tránsito entre servidores y clientes. El prototipo de plataforma de software implementado para la prueba de estos conceptos, que hemos denominado Cell, constituye un sistema integral basado en Software Libre para construir, gestionar, analizar y visualizar información geográfica almacenada en rejillas multiescalares asimétricas. La integración de información espacial, de especial interés en aplicaciones ambientales y socio-demográficas, ha sido y es un problema clásico en Geografía y en las Tecnologías de la Información Geográfica. La enorme heterogeneidad de modelos de datos (vectorial y ráster), así como la propia disimilitud en los datos que la escala y la propia naturaleza geométrica, sobre todo en el modelo vectorial, imponen a la información geográfica ha dificultado históricamente los procesos de integración para llevar a cabo análisis multivariantes. En esta tesis se propone un marco metodológico e instrumental como vehículo para mejorar esta capacidad de integración espacial, proponiendo un nuevo modelo de datos: la rejilla multiescalar asimétrica. Esta estructura de datos hace uso de las capacidades de gestión de datos de estructuración laxa de los sistemas de bases de datos NoSQL, específicamente documentos JSON, para consignar la información temática. Esta estructura es multiescalar, utilizando unidades geométricas de diferentes resoluciones, y asimétrica tanto en su dimensión geométrica como temática, en el sentido de que los elementos NODATA no están están contemplados. Esto se consigue definiendo matemáticamente la rejilla y utilizando estructuras de datos laxas para la información temática. Esta estructura favorece la computación en paralelo de la información geográfica adscrita y la obtención de vectores de datos. Estos vectores son la entrada de datos natural a los algoritmos del campo del Machine Learning y el Deep Learning, permitiendo la exploración de la información integrada mediante estas potentes técnicas analíticas. Como muestra de esta capacidad, el prototipo implementa la aplicación de dos métodos de Machine Learning, el K-Means y el Random forest. Para las pruebas de concepto se han seleccionado una serie de datos masivos, ya sea por su tamaño o por el procesamiento que requieren (Big Data Geográfico). El prototipo de la plataforma se ha probado adscribiendo información de los Hábitats de Interés Comunitario, el Catastro, la población y un Modelo Digital del Terreno que cubren la totalidad de la Comunidad Autónoma Andaluza. Esta plataforma está construida con una arquitectura de microservicios que permite su escalabilidad horizontal, pudiendo dimensionarse para asumir considerables volúmenes de trabajo. La arquitectura de estos microservicios y las librerías en las que se basan son lo suficientemente flexibles para permitir a un programador incorporar de una forma sencilla nuevos procedimientos de creación de información teselada. Para la publicación de resultados, la plataforma aporta una API de servicios que permite a usuarios y programas cliente conectarse a la misma para solicitar trabajos de integración y acceso a la información geográfica procesada en la nueva estructura de datos propuesta. Esta API aprovecha la capacidad asimétrica y de definición matemática de la rejilla para no enviar, de forma explícita, los elementos geométricos en el tránsito de información servidor - cliente, ya que gracias a esta definición los clientes pueden recrear el elemento geométrico localmente. No menos importante son los medios de visualización de la información final integrada. Se han creado una serie de soluciones de visualización web, centradas en el consumo de datos integrados y su representación y simbolización en el propio cliente. Esto permite crear aplicaciones de visualización web muy dinámicas e interactivas. Estos visores utilizan tecnologías en el marco de los nuevos estándares de desarrollo web, en los que se enfatiza un enfoque de las aplicaciones a datos (cartografía dinámica y widgets). Tecnologías como el ecosistema HTML5 (WebGL, canvas, etc.) o librerías orientadas a datos como D3 son revisadas para hacer la explotación cartográfica y de exploración de datos de los productos de la rejilla asimétrica desarrollada en la metodología.
In this Thesis the design and implementation of a cloud platform for the management of asimetric multiscalar grid data structures is discussed. Asimetric multiscalar grid data structures is a mean of abstraction and homogeneization of geographic information aimed at making multicriteria thematic analysis easier, allowing for a more accessible use of advanced Big Data and Machine Learning analytics on geographic information, something not always straightforward thanks to the intrinsic topologic relationships present in geographic information. It also provides a mean for efficient storage and dissemination of adscribed multithematic geographic information on a server - client distributed architecture. The main product of this Thesis is not only the description of such a platform, but also a fully featured software prototype called Cell, able to build, manage, analyze, and visualize geographic information stored in such a data structure proposed in this work. Geographic data integration has been a central topic of the discipline for decades, and has important applications in the fields of enviroment and socio-demographic studies. Heterogeneous data structures (mostly vector and raster), coupled with dissimetries in data induced by scale and the geometric nature of geographic information, specially in the case of vector data, has historically hindered multivariate analysis in Geography. This Thesis proposes a methodologic and instrumental framework to enhance spatial data integration by means of a new data model: the assimetric, multiscalar grid. This data model uses mixed instrumental approaches to SQL and NoSQL techniques, using JSON as the physical storage technology to achieve its objectives. This new data model is multiscalar, using different resolution geometric units, and handles data asymmetrically both in the geometric and thematic aspects of geographic information. This is achieved by eliminating the necessity of NODATA values by mathematically defining the underlying grid. This structure, also, favours the practice of parallel computing on the integrated information and the retrieval of mathematical data vectors. These mathematical data vectors are the traditional inputs for Machine and Deep Learning algorithms, allowing the use of this powerfull analysis techniques on the integrated data. As a test, the prototype implements two algorithms of Machine Learning, the K-Means and the Random forest. For concept testing, an array of big datasets has been chosen to test parallel, massive integration of data. This datasets ranges from environmental ones (habitat data, DTM) to basic territorial or demographic ones (cadastrial parcels or population), all of them covering the total area of the Comunidad Autónoma of Andalusia, south Spain. This platform has been built with a microservices architecture, allowing for enhanced horizontal scalability, making it possible to dimension it to accomodate heavy workloads. The architecture of the system and their libraries is flexible enough to allow a programmer to easily extend the range of spatial integration analytical functions. For the dissemination of data, the prototype implement an API REST interface to allow users and client programs to connect and retrieve integrated data. This API takes advantage of the asymetry of the integrated data and the mathematical definition of the grid to ease the bulk of data packages to be sent to the client. Thanks to that, the clients are able to recreate the geometries locally. This work also reviews options for rich visualization of the integrated data. A range of web data visualizations solutions has been explored, focusing on data-driven interactions and rich client-side processing of thematic and geometric data. This allows for highly dynamic and interactive visualization apps, with widgets and dashboard compositions being a possibility. The modern stack of web technologies (HTML5
© 2001-2024 Fundación Dialnet · Todos los derechos reservados