Los 7 algoritmos de agrupamiento principales que los científicos de datos deben conocer

El agrupamiento se relaciona principalmente con el proceso de agrupar puntos de datos en función de varias similitudes o diferencias entre ellos. Se usa ampliamente en Machine Learning y Data Science y, a menudo, se considera como un tipo de método de aprendizaje no supervisado. Posteriormente, existen varios algoritmos de agrupamiento estándar que se utilizan para agrupar estos puntos de datos. De acuerdo con los requisitos de agrupación, los grupos formados a partir de los puntos de datos de entrada se segregan y aquí comienza el juego principal que los científicos de datos deben jugar. Esto se debe a que ahora deben ser selectivos con cualquiera de los algoritmos de agrupamiento para que los conjuntos de datos disponibles puedan representarse bien en forma de clústeres. 

Top-7-Clustering-Algorithms-Data-Scientists-Should-Know

Mientras tanto, si tiene ganas de convertirse en un aspirante a científico de datos o de ocupar un puesto de renombre en el mercado de la ciencia de datos, debe echar un vistazo a los mejores algoritmos de agrupación. Aquí, en este artículo, vamos a discutir los 7 algoritmos de agrupamiento principales que todos los científicos de datos en ciernes deberían saber:

1. Agrupación jerárquica aglomerativa  

El agrupamiento jerárquico es común en nuestra vida cotidiana y, con frecuencia, lo descuidamos cuando produce una secuencia anidada de grupos. Dichos grupos se organizan mediante un enfoque de arriba hacia abajo o de abajo hacia arriba. De arriba hacia abajo significa ver los conjuntos de datos desde la fuente hasta sus subconjuntos generales como padre, hijos y nietos, mientras que de abajo hacia arriba nos permite ver los conjuntos de datos desde los generales hasta la fuente. De hecho, el enfoque de abajo hacia arriba no es más que un agrupamiento jerárquico aglomerativo en el que varios puntos de datos se agrupan como múltiples pares de datos. 

Luego, estos pares de datos obtenidos, que obviamente son grupos, se fusionan hasta que se obtiene un gran grupo único que consta de todos los puntos de datos. ¿Está pensando en el nombre de la representación visual en forma de árbol de este tipo de agrupación jerárquica? Su nombre es dendograma. Implementemos ahora con éxito los pasos enumerados a continuación del agrupamiento jerárquico aglomerativo 

Algoritmo :

  • Cada punto de datos es un grupo y supongamos que el número total de grupos es m .
  • Ahora, configurar la array de proximidad/distancia de m*n es todo lo que necesita hacer teniendo en cuenta el mapeo de la distancia entre los dos puntos de datos que participan en la formación de un grupo.
  • Mientras tanto, encontrará uno o algunos pares de datos con similitudes comunes. Use ese par que es muy similar a otros que ya existen y luego, continúe actualizando la array de distancia.
  • Para medir bien la distancia entre los puntos finales, puede usar cualquiera de las técnicas: enlace único, centroide, enlace completo y enlace promedio.
  • Continúe actualizando la array a través de cualquiera de las técnicas de medición de distancia mencionadas en el paso anterior hasta llegar a la fuente donde queda un grupo único que consta de todos los objetos.

2. Reducción y agrupamiento iterativo equilibrado

Conocido en el mercado como BIRCH, Balanced Iterative Reducing & Clustering using Hierarchies es uno de los mejores algoritmos de agrupamiento no supervisado . Este es un algoritmo de cuatro fases que absorbe de manera eficiente patrones de identificación de datos útiles con la ayuda de jerarquías apropiadas para que las bases de datos más grandes que comprenden puntos de datos multidimensionales puedan administrarse sin comprometer la calidad de los clústeres. 

¿Pensando si el algoritmo está sujeto a restricciones como el tiempo y la memoria? Sin ninguna vacilación, existen restricciones a las que se adhiere este algoritmo, pero aún así, tiene el potencial de encontrar los clústeres de mejor calidad a través de un solo escaneo de la base de datos. Eche un vistazo a las cuatro fases de BIRCH explicadas brevemente:

  • Primera Fase: Esta es una de las fases más importantes y comienza con la idea de crear un CF o un árbol de características de agrupamiento. Aquí, en esta fase, hay algunos pasos y el primero es:
  1. CF se representa como un vector tridimensional en esta forma CF = (N, LS, SS). N es el número de instancias/puntos de datos seleccionados, LS es su suma lineal, mientras que SS es la suma cuadrada de N. 
  2. Habrá muchos CF como los pasos anteriores que se representarán iterativamente como equilibrados jerárquicamente por un árbol llamado árbol CF. Encontrará dos parámetros de este árbol:
    • Factor de ramificación (para estimar el número máximo de hijos que puede acomodar un Node de hoja) 
    • Umbral (el valor de diámetro máximo entre los puntos de datos dentro de un subgrupo presente en los Nodes hoja). Además, hay otros parámetros como T (tamaño del árbol CF ) y P (tamaño de la página donde se requiere que encaje el Node hoja o no hoja). 
  3. Ahora, podría estar pensando en cómo se representa jerárquicamente este árbol CF. Para esto, los Nodes que no son hojas se muestran como [CF_{i}, child_{i}], donde [child_{i}] es un puntero que apunta hacia su enésimo Node secundario mientras que [CF_{i}] es la función de agrupación que representa así el sub-clúster asociado. 
  4. Al final de esta fase, se crea bien un árbol CF, por lo que ahora podemos saltar a otra fase que es escanear el árbol CF.
  • Segunda fase: esta fase se puede pronunciar como la fase de condensación de datos o de cambio de tamaño del árbol CF. Aunque está marcado como opcional según la presentación original de BIRCH, tiene una importancia primordial ya que a través de esta fase, el árbol CF representado puede reconstruirse en uno más pequeño mediante:
  1. Agrupe los subclústeres densamente poblados en un clúster más grande que consta de múltiples puntos de datos almacenados en el árbol como Nodes (hoja o no hoja).  
  2. Eliminación de valores de diámetro anormales para que la condensación de datos se pueda llevar a cabo sin problemas.
  • Tercera Fase: Esta fase es otro nombre de Global Clustering. Aquí, cualquiera de los algoritmos de agrupamiento existentes, como K-Means, etc., se aplica para agrupar bien todas las entradas de Nodes hoja que se encuentran dentro del árbol CF. ¿ Razón para aplicar cualquiera de los algoritmos de agrupamiento recientes presentes a nivel mundial ? Cualquiera de ellos le permitirá especificar de manera flexible tanto el número de grupos deseados como el umbral de diámetro esencial para un agrupamiento de calidad.
  • Cuarta Fase: Última o la cuarta fase, también pronunciada como refinación de racimo. Después de obtener los conjuntos de conglomerados de la tercera fase, se filtran aún más de manera redistribuida en semillas (según el principio del centroide) para que se obtenga una mejor versión de los conglomerados manejando bien las bases de datos con conjuntos de datos más grandes. Y al final, los valores hoja o no hoja repetitivos o anormales se identifican y eliminan para cargar mejores grupos en la memoria.

3. Agrupación de ME  

Conocido en el campo de la ciencia de datos como una solución que puede superar bien los inconvenientes de K-Means, EM o el algoritmo de agrupamiento de maximización de expectativas utiliza la función gaussiana para estimar intuitivamente los valores faltantes de los conjuntos de datos disponibles. Luego, de manera restrictiva, da forma a los clústeres a través de valores optimizados de media y desviación estándar. 

Todo el proceso de estimación y optimización se lleva a cabo hasta el punto en que se obtiene un solo grupo que se parece bien a la probabilidad de resultados. Conozcamos ahora un poco sobre los pasos del algoritmo de EM Clustering :

  • Considerando un conjunto de parámetros con la probabilidad de aleatoriedad en las observaciones registradas. El propósito principal de seleccionar las variables aleatoriamente es acceder rápidamente a muchos grupos de datos sobre los cuales se realizarán eventos de estimación y maximización.
  • Este es el siguiente paso conocido como Estimación. Aquí, los grupos de datos formados se observan de manera que los valores que faltan se pueden estimar a través de una función de distribución de probabilidad (cualquiera de los modelos de mezcla gaussiana presentan dicha distribución teniendo en cuenta la máxima verosimilitud de los valores estimados).
  • Ahora es el momento de realizar la técnica de optimización a través de la función de distribución de probabilidad mediante el cálculo de parámetros como la media y la desviación estándar de los conjuntos de datos que probablemente estén mucho más cerca de un grupo seleccionado.
  • Por último, se presta atención a la convergencia, que es un método de programación simple, y la condición se cumple después de que los pasos 2 y 3 se realizan de forma iterativa. Los conjuntos de datos utilizados en los pasos de estimación y optimización o maximización se verifican probabilísticamente hasta el punto en que la diferencia entre las probabilidades de que ocurran es insignificante o casi cero. En caso de ser necesario, podemos repetir los cálculos de los valores estimados y esperados hasta que el punto de convergencia se encuentre en la actualidad. Tan pronto como se identifique este punto, el algoritmo (que funciona según el principio de usar-observar-actualizar) puede detenerse y uno puede disfrutar de resultados precisos que eliminan todas las inconsistencias.

4. Agrupación jerárquica

El algoritmo de agrupamiento jerárquico funciona como magia en momentos en que tiene la misión de identificar los elementos de datos y mapearlos de acuerdo con la probabilidad de agrupaciones. Ahora, los elementos de datos mapeados después de la comparación pueden pertenecer a un grupo cuyas propiedades son diferentes en términos de escalado multidimensional, tabulación cruzada o relación cuantitativa entre variables de datos en múltiples factores. 

¿ Está pensando en cómo identificar un solo clúster después de fusionar los clústeres disponibles teniendo en cuenta la jerarquía de sus características sobre la base de la cual se clasifican? Para hacer esto, se pueden observar los pasos del algoritmo de agrupamiento jerárquico escrito a continuación:

  • Comience seleccionando los puntos de datos y mapéelos como grupos de acuerdo con la jerarquía.
  • ¿Pensando en cómo se interpretarán los clústeres? Aquí, se puede usar un dendrograma para interpretar bien la jerarquía de grupos con un enfoque de arriba hacia abajo o de abajo hacia arriba .
  • Los clústeres mapeados se fusionan hasta que queda un solo clúster y para medir la cercanía entre los clústeres mientras los fusionamos, podemos usar múltiples métricas como la distancia euclidiana, la distancia de Manhattan o la distancia de Mahalanobis. 
  • El algoritmo se termina por ahora ya que el punto de intersección se identifica y mapea bien en el dendrograma.

5. Agrupación espacial basada en la densidad  

El algoritmo de agrupamiento espacial basado en la densidad con ruido (o DBSCAN) es una mejor opción que K Means cuando se trata de identificar agrupaciones , simplemente mediante el examen cruzado de la densidad de sus puntos de datos, en bases de datos espaciales más grandes. Además, es atractivo y 100 veces más eficiente que CLARANS, es decir, agrupar aplicaciones GRANDES a través del método de partición basado en Medoid. Debido a su noción de identificación de grupos basada en la densidad, fue premiado por recibir una atención sustancial en términos tanto de práctica como de teoría. 

Meditando qué concepto básico utiliza este algoritmo? Por lo tanto, este galardonado algoritmo de agrupación de datos espaciales selecciona un punto arbitrario y luego identifica otros puntos que están cerca del arbitrario. Más tarde, los puntos de datos reconocidos con la ayuda de uno arbitrario se reconocen como un grupo y el que está lejos del punto arbitrario (denominado como ruido/valores atípicos) se utiliza en otras iteraciones para identificar los grupos. Conozcamos más claramente los pasos de este premiado algoritmo:

  • Comience considerando una gran base de datos espacial para descubrir los grupos de formas arbitrarias. Dentro de ese espacio, seleccionamos un punto arbitrario, digamos p y luego, procedemos a encontrar su punto de datos de vecindad más cercano como q a través del parámetro de distancia ε.
  • Ahora se pueden identificar más puntos de datos (como q) hasta una etapa en la que se identifica aproximadamente un grupo de forma y densidad arbitrarias. El número de esos puntos de datos entrará en escena ya que su agrupación ha comenzado con algún valor, digamos 5 o más de minPts (puntos mínimos necesarios para formar un grupo basado en la densidad). (Nota: todos los puntos de un grupo están densamente conectados entre sí. Un punto seleccionado es parte de un grupo si es densamente alcanzable con algún punto ya existente).
  • Es muy posible que los puntos no alcanzables se revisen durante el proceso de agrupación. En lugar de descartarlos, se pueden simbolizar como ruido/valores atípicos. 
  • Es preferible repetir los pasos anteriores, es decir, 2 y 3, de modo que los puntos de datos examinados puedan convertirse en parte del grupo que tenga alguna forma y densidad y, más tarde, aquellos etiquetados como ruido se visitarán más tarde. 
  • Al final, se visitará el ruido o los valores atípicos para identificar sus puntos de datos vecinos en algún lugar que formen grupos que se encuentran en regiones de baja densidad. ( Nota: no es obligatorio atravesar valores atípicos, ya que son visibles en regiones de baja densidad).

6. Agrupación de K-Means

El algoritmo de agrupación en clústeres de K-Means identifica iterativamente el número k de clústeres después de calcular el valor del centroide entre un par de puntos de datos. Con sus observaciones de cuantización de vectores, es muy ventajoso calcular los centroides de los clústeres en virtud de los cuales se pueden introducir puntos de datos de características variables en el agrupamiento. 

Y a medida que el proceso de agrupación se acelera, una gran cantidad de datos del mundo real que emergen sin etiquetar ahora serán comparativamente eficientes, ya que ahora están segmentados en grupos que varían en forma y densidad. ¿Pensando en cómo se calcula la distancia del centroide? Eche un vistazo a los pasos de k significa que se enumeran a continuación :

  • Seleccione primero el número de racimos que pueden variar en forma y densidad. Llamemos a ese número k cuyo valor puedes elegir como 3,4, o cualquier otro.
  • Ahora, puede asignar puntos de datos al número del grupo. Luego, con el punto de datos y el grupo seleccionados, la distancia del centroide se calcula a través de la distancia euclidiana de mínimos cuadrados. 
  • Si el punto de datos está mucho más cerca de la distancia del centroide, entonces se parece al grupo, de lo contrario no lo es. 
  • Continúe calculando las distancias del centroide de forma iterativa con el punto de datos seleccionado hasta que identifique un número máximo de grupos que contengan puntos de datos similares. El algoritmo detiene su proceso de agrupamiento tan pronto como se logra la convergencia garantizada (un punto donde los puntos de datos se agrupan bien).

7. Ordenar puntos para identificar la estructura de agrupamiento

OPTICS o puntos de pedido para identificar la estructura del algoritmo de agrupamiento tiene el potencial de mejorar la catalogación de bases de datos. ¡Puede reflexionar sobre qué es realmente la catalogación de bases de datos ! Por lo tanto, la catalogación de bases de datos es una forma de organizar secuencialmente la lista de bases de datos que comprenden conjuntos de datos que residen dentro de los grupos. 

Estos grupos son de densidades y formas variables y, por lo tanto, su estructura varía. Además, el enfoque básico de OPTICS es similar al del Algoritmo de agrupamiento espacial basado en densidad (ya discutido en el punto número 5), pero al mismo tiempo, muchas de las debilidades de DBSCAN se abordan y se resuelven de manera significativa. 

La razón principal para detectar y resolver las debilidades de DBSCAN es que ahora no necesita preocuparse por la identificación de clústeres más densamente poblados que DBSCAN no hizo. ¿Quieres ver cómo funciona este algoritmo? Simplemente lea estos pasos a continuación: 

  • Primitivamente, se puede revisar un conjunto de puntos de datos no clasificados, ya que ahora no es necesario especificar el número de grupos. Luego, debe seleccionar algún punto arbitrario como p y comenzar a calcular el parámetro de distancia ε para encontrar el punto de vecindad.
  • Para continuar con el proceso de agrupación, es esencial encontrar el número mínimo de puntos de datos con los que se puede formar una agrupación densamente poblada. Y ese número se puede denotar con la variable minPts. Aquí, el proceso puede detenerse si el nuevo punto de datos identificado es mayor que minPts.
  • Continúe actualizando los valores de ε y el punto de datos actual hasta que los grupos de diferentes densidades estén bien segmentados, incluso mejor que DBSCAN. 

Publicación traducida automáticamente

Artículo escrito por ashugupta917gfg y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *