Clustering Jerárquico en Minería de Datos

Un método de agrupación jerárquica funciona mediante la agrupación de datos en un árbol de grupos. El agrupamiento jerárquico comienza tratando cada punto de datos como un grupo separado. Luego, ejecuta repetidamente los pasos siguientes:

  1. Identifique los 2 grupos que pueden estar más cerca entre sí, y
  2. Combinar los 2 clústeres comparables máximos. Necesitamos continuar con estos pasos hasta que todos los clústeres se fusionen.

En Hierarchical Clustering, el objetivo es producir una serie jerárquica de clusters anidados. Un diagrama llamado dendrograma (un dendrograma es un diagrama en forma de árbol que registra las secuencias de fusiones o divisiones) representa gráficamente esta jerarquía y es un árbol invertido que describe el orden en que se fusionan los factores (vista de abajo hacia arriba) o se dividen los grupos. arriba (vista de arriba hacia abajo).

El método básico para generar un agrupamiento jerárquico es 

1. Aglomerativo: inicialmente, considere cada punto de datos como un grupo individual y, en cada paso, combine los pares más cercanos del grupo. (Es un método de abajo hacia arriba). Al principio, cada conjunto de datos se considera como una entidad o grupo individual. En cada iteración, los clústeres se fusionan con diferentes clústeres hasta que se forma un clúster. 

El algoritmo para el agrupamiento jerárquico aglomerativo es:

  • Calcule la similitud de un grupo con todos los demás grupos (calcule la array de proximidad)
  • Considere cada punto de datos como un grupo individual
  • Combinar los grupos que son muy similares o cercanos entre sí.
  • Recalcular la array de proximidad para cada clúster
  • Repita los pasos 3 y 4 hasta que solo quede un solo grupo.

Veamos la representación gráfica de este algoritmo usando un dendrograma. 

Nota: Esto es solo una demostración de cómo funciona el algoritmo real; no se ha realizado ningún cálculo por debajo de lo que se supone que es la proximidad entre los grupos. 

Digamos que tenemos seis puntos de datos A, B, C, D, E y F.

 

Figura: agrupación jerárquica aglomerativa

  • Paso 1: Considere cada alfabeto como un solo grupo y calcule la distancia de un grupo de todos los demás grupos.
  • Paso 2: En el segundo paso, los clústeres comparables se fusionan para formar un solo clúster. Digamos que el grupo (B) y el grupo (C) son muy similares entre sí, por lo tanto, los fusionamos en el segundo paso de manera similar al grupo (D) y (E) y, por último, obtenemos los grupos [(A), (BC ), (DE), (F)]
  • Paso 3: Recalculamos la proximidad de acuerdo con el algoritmo y fusionamos los dos grupos más cercanos ([(DE), (F)]) para formar nuevos grupos como [(A), (BC), (DEF)]
  • Paso 4: Repetir el mismo proceso; Los grupos DEF y BC son comparables y se fusionaron para formar un nuevo grupo. Ahora nos quedan los grupos [(A), (BCDEF)].
  • Paso 5: por fin, los dos grupos restantes se fusionan para formar un solo grupo [(ABCDEF)].

2. Divisoria: 

Podemos decir que el agrupamiento Jerárquico Divisivo es precisamente lo opuesto al agrupamiento Jerárquico Aglomerativo. En el agrupamiento jerárquico divisivo, tenemos en cuenta todos los puntos de datos como un solo grupo y, en cada iteración, separamos los puntos de datos de los grupos que no son comparables. Al final, nos quedamos con N grupos. 

Figura: agrupación jerárquica divisiva

Publicación traducida automáticamente

Artículo escrito por pcp21599 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *