La agrupación en clústeres es una técnica de aprendizaje automático no supervisado que agrupa puntos de datos en clústeres en función de la similitud de la información disponible para los puntos de datos en el conjunto de datos. Los puntos de datos que pertenecen a los mismos grupos son similares entre sí en algunos aspectos, mientras que los elementos de datos que pertenecen a diferentes grupos son diferentes.
K-means y DBScan (agrupación espacial basada en la densidad de aplicaciones con ruido) son dos de los algoritmos de agrupación en clústeres más populares en el aprendizaje automático no supervisado.
1. Agrupamiento de K-Means:
K-means es un algoritmo de agrupamiento basado en el centroide o en la partición. Este algoritmo divide todos los puntos del espacio muestral en K grupos de similitud. La similitud generalmente se mide utilizando la distancia euclidiana.
El algoritmo es como sigue :
Algoritmo :
- Los centroides K se colocan aleatoriamente, uno para cada grupo.
- Se calcula la distancia de cada punto desde cada centroide
- Cada punto de datos se asigna a su centroide más cercano, formando un grupo.
- Se recalcula la posición de los K centroides.
2. Clustering de DBScan:
DBScan es un algoritmo de clustering basado en la densidad. El hecho clave de este algoritmo es que la vecindad de cada punto en un grupo que está dentro de un radio dado (R) debe tener un número mínimo de puntos (M). Este algoritmo ha demostrado ser extremadamente eficiente en la detección de valores atípicos y el manejo del ruido.
El algoritmo es como sigue :
Algoritmo:
- Se determina el tipo de cada punto. Cada punto de datos en nuestro conjunto de datos puede ser cualquiera de los siguientes:
- Punto central: un punto de datos es un punto central si hay al menos M puntos en su vecindad, es decir, dentro del radio especificado (R).
- Punto fronterizo: un punto de datos se clasifica como punto FRONTERIZO si:
- Su vecindad contiene menos de M puntos de datos, o
- Es accesible desde algún punto central, es decir, está dentro de la distancia R desde un punto central.
- Punto atípico: un punto atípico es un punto que no es un punto central y, además, no está lo suficientemente cerca como para ser accesible desde un punto central.
- Los puntos atípicos se eliminan.
- Los puntos centrales que son vecinos se conectan y se colocan en el mismo grupo.
- Los puntos fronterizos se asignan a cada grupo.
Hay algunas diferencias notables entre K-means y DBScan.
S. No. | Agrupación de K-medias | Agrupación de DBScan |
---|---|---|
1. | Los grupos formados son de forma más o menos esférica o convexa y deben tener el mismo tamaño de característica. | Los grupos formados tienen forma arbitraria y pueden no tener el mismo tamaño de característica. |
2. | La agrupación en clústeres de K-medias es sensible al número de clústeres especificado. | No es necesario especificar el número de conglomerados. |
3. | K-means Clustering es más eficiente para grandes conjuntos de datos. | DBSCan Clustering no puede manejar de manera eficiente conjuntos de datos de alta dimensión. |
4. | K-means Clustering no funciona bien con valores atípicos y conjuntos de datos ruidosos. | El agrupamiento de DBScan maneja de manera eficiente los valores atípicos y los conjuntos de datos ruidosos. |
5. | En el dominio de la detección de anomalías, este algoritmo causa problemas ya que los puntos anómalos se asignarán al mismo grupo que los puntos de datos «normales». | El algoritmo DBScan, por otro lado, localiza regiones de alta densidad que están separadas entre sí por regiones de baja densidad. |
6. | Requiere un parámetro: Número de clústeres ( K ) |
Requiere dos parámetros: Radio ( R ) y Puntos Mínimos ( M ) R determina un radio elegido de modo que si incluye suficientes puntos dentro de él, es un área densa. M determina la cantidad mínima de puntos de datos requeridos en un vecindario para ser definido como un clúster. |
7. | Las densidades variables de los puntos de datos no afectan el algoritmo de agrupamiento de K-means. | La agrupación en clústeres de DBScan no funciona muy bien para conjuntos de datos dispersos o para puntos de datos con densidad variable. |
Publicación traducida automáticamente
Artículo escrito por DishaSinha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA