Clustering proyectado en análisis de datos

En este artículo, vamos a discutir sobre el agrupamiento proyectado en el análisis de datos.

Agrupamiento proyectado: el agrupamiento proyectado es el primer algoritmo de agrupamiento
proyectado de partición de arriba hacia abajo basado en la noción de agrupamiento k-medoid que fue presentado por Aggarwal (1999). Determina medoids para cada grupo de forma repetitiva en una muestra de datos utilizando una técnica de escalada codiciosa y luego actualiza los resultados de forma repetitiva. La calidad del clúster en el agrupamiento proyectado es una función de la distancia promedio entre los puntos de datos y el medoide más cercano. Además, la dimensionalidad del subespacio es un marco de entrada que genera grupos de tamaños similares.

Características del agrupamiento proyectado:

El agrupamiento proyectado es un método de agrupamiento de subespacio de reducción de dimensión típica. Es decir, en lugar de iniciar desde espacios unidimensionales, procede identificando una aproximación inicial de los grupos en un espacio de atributos de alta dimensión.
Luego, a cada dimensión se le asigna un peso para cada grupo y los pesos renovados se usan en la siguiente repetición para restaurar los grupos. Esto conduce a la inspección de regiones densas en todos los subespacios de alguna dimensionalidad deseada.
Evita la producción de una gran cantidad de clústeres superpuestos en una dimensionalidad más baja.
El agrupamiento proyectado encuentra el mejor conjunto de medoides mediante una técnica de escalada de colinas pero generalizada para tratar con el agrupamiento proyectado.
Adquiere una medida de distancia llamada distancia segmentaria de Manhattan.
Este algoritmo consta de tres fases: Inicialización, iteración, refinamiento del clúster.
Sin embargo, el agrupamiento proyectado es más rápido que CLIQUE debido al muestreo de grandes conjuntos de datos, aunque el uso de una pequeña cantidad de puntos ilustrativos puede hacer que este algoritmo pierda completamente algunos agrupamientos.
Los experimentos sobre la agrupación proyectada muestran que el procedimiento está estructurado y es escalable para encontrar agrupaciones de alta dimensión. Este algoritmo encuentra particiones de puntos no superpuestas.

Entrada y salida para el agrupamiento proyectado:
Entrada –

El grupo de puntos de datos.
Número de conglomerados, indicado por k.
Número promedio de dimensiones para cada grupo, indicado por L.

Producción –

Los clusters identificados, y las dimensiones estimadas a dichos clusters.

Publicación traducida automáticamente

Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta