Ayuda
Ir al contenido

Dialnet


Resumen de Agrupamiento de datos desde un enfoque paralelo

Wilfredo Quiala Fonseca

  • español

    El algoritmo de agrupamiento DBSCAN es uno de los métodos de agrupamiento por densidad más conocidos debido a su eficiencia y simplicidad. Sin embargo, por su funcionamiento, no puede resolver problemas con una gran cantidad de muestras donde el tiempo de ejecución se considera relevante. En la actualidad, el agrupamiento de grandes cantidades de datos se está convirtiendo en una tarea indispensable. Este problema se conoce como Big Data, donde las técnicas estándar de minería de datos no pueden hacer frente a estos volúmenes de datos. En esta contribución, se propone un enfoque basado en paralelismo con intercambio de mensajes para el agrupamiento DBSCAN. Este modelo nos permite agrupar una gran cantidad de casos desconocidos al mismo tiempo. Para esto, la fase de mapeo determinará los conglomerados en las diferentes particiones de los datos. Después, la fase de reducción mezclará y actualizará los conglomerados obtenidos en la fase anterior. Este modelo permite escalar con conjuntos de datos de tamaño arbitrario, simplemente agregando más nodos de computación si es necesario. Además, esta implementación obtiene una velocidad de agrupación, similar a la agrupación del algoritmo clásico DBSCAN.

  • English

    The DBSCAN clustering method is one of the best known density clustering methods due to its efficiency and simplicity. However, by its operation, it cannot address problems with a large number of samples where the execution time is considered relevant. At present, the grouping of large amounts of data is becoming an indispensable task. This problem is known as big data, where standard data mining techniques cannot cope with these data volumes. In this contribution, an approach based on parallelism with message exchange for DBSCAN clustering by density is proposed. This model allows us to classify a large number of unknown cases at the same time. For this, the mapping phase will determine the clusters in the different partitions of the data. Afterwards, the reduction phase will mix and update the clusters obtained from the previous phase. This model allows you to scale with data sets of arbitrary size, simply adding more compute nodes if necessary. In addition, this implementation obtains a clustering rate, similar to the clustering of the classical DBSCAN algorithm.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus