Comprensión básica del algoritmo CURE

CURE (agrupación mediante representantes)

  • Es una técnica de agrupamiento de base jerárquica, que adopta un término medio entre el centroide basado y los extremos de todos los puntos. El agrupamiento jerárquico es un tipo de agrupamiento que comienza con un clúster de un solo punto y se mueve para fusionarse con otro clúster, hasta que se forma el número deseado de clústeres.
  • Se utiliza para identificar los grupos esféricos y no esféricos.
  • Es útil para descubrir grupos e identificar distribuciones interesantes en los datos subyacentes.
  • En lugar de usar un centroide de punto, como en la mayoría de los algoritmos de minería de datos, CURE usa un conjunto de puntos representativos bien definidos para manejar de manera eficiente los grupos y eliminar los valores atípicos.

Representación de clústeres y valores atípicos

Seis pasos en el algoritmo CURE: 
 

CURA Arquitectura

  • Idea: muestra aleatoria, digamos que ‘s’ se extrae de datos dados. Esta muestra aleatoria se divide en particiones, por ejemplo, particiones ‘p’ con tamaño s/p. La muestra particionada está parcialmente agrupada, digamos en grupos ‘s/pq’. Los valores atípicos se descartan/eliminan de esta partición parcialmente agrupada. Las particiones parcialmente agrupadas deben volver a agruparse. Etiquete los datos en el disco. 
     

Representación de particiones y agrupaciones

  • Procedimiento :
    1. Seleccione el número de muestra de destino ‘gfg’.
    2. Elija ‘gfg’ puntos bien dispersos en un grupo.
    3. Estos puntos dispersos se contraen hacia el centroide.
    4. Estos puntos se utilizan como representantes de clústeres y se utilizan en el enfoque de fusión de clústeres ‘Dmin’. En el enfoque de fusión de conglomerados Dmin (distancia mínima), se calcula la distancia mínima desde el punto disperso dentro de la muestra ‘gfg’ y los puntos fuera de la muestra ‘gfg’. El punto que tiene la menor distancia al punto disperso dentro de la muestra, en comparación con otros puntos, se considera y se fusiona con la muestra.
    5. Después de cada una de estas fusiones, se seleccionarán nuevos puntos de muestra para representar el nuevo conglomerado.
    6. La fusión de clústeres se detendrá hasta que se alcance el objetivo, digamos ‘k’.

Publicación traducida automáticamente

Artículo escrito por sharadarao1999 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *