Un clúster es la colección de objetos de datos que son similares entre sí dentro del mismo grupo. Los objetos de datos de un clúster son diferentes a los objetos de datos de otros grupos o clústeres.
Enfoques de agrupamiento:
1. Método de particionamiento: El método de particionamiento construye varias particiones y luego las evalúa según algún criterio, por ejemplo, minimizando la suma de los errores cuadráticos. Adopta una separación de grupos exclusiva (cada objeto pertenece exactamente a un grupo) y utiliza técnicas de reubicación iterativa para mejorar la partición al mover objetos de un grupo a otro. Utiliza un enfoque codicioso y un enfoque en un óptimo local. Encuentra clústeres con formas esféricas en bases de datos de tamaño pequeño a mediano.
Métodos de enfoque de partición:
- k-significa
- k-medoides
- CLARÍNES
2. Enfoque basado en la densidad: este enfoque se basa en las funciones de conectividad y densidad. Divide el conjunto de objetos en múltiples grupos exclusivos o una jerarquía de grupos. Métodos basados en la densidad:
- DBSACN
- ÓPTICA
3. Enfoque basado en cuadrículas: este enfoque cuantifica los objetos en un número finito de celdas que forman una estructura de cuadrícula. Tiempo de procesamiento rápido e independiente de una serie de objetos de datos. El método de agrupamiento basado en cuadrículas es el enfoque eficiente para los problemas de minería de datos espaciales.
Métodos de enfoque basados en cuadrículas:
- PICADURA
- WaveCluster
- CAMARILLA
4. Enfoque jerárquico: Esto crea una descomposición jerárquica de los objetos de datos mediante el uso de algunas medidas. Métodos de enfoque jerárquico:
- Diana
- Inés
- ABEDUL
- CAMALEÓN
Medidas para la calidad de la agrupación:
Si todos los objetos de datos en el grupo son muy similares, entonces el grupo tiene alta calidad. Podemos medir la calidad del agrupamiento utilizando la métrica de disimilitud/similitud en la mayoría de las situaciones. Pero existen otros métodos para medir las Cualidades de un buen agrupamiento si los agrupamientos son similares.
1. Métrica de disimilitud/similitud: la similitud entre los grupos se puede expresar en términos de una función de distancia, que se representa mediante d(i, j). Las funciones de distancia son diferentes para varios tipos de datos y variables de datos. La medida de la función de distancia es diferente para variables de valor continuo, variables categóricas y variables vectoriales. La función de distancia se puede expresar como distancia euclidiana, distancia de Mahalanobis y distancia de coseno para diferentes tipos de datos.
2 . Completitud del clúster: la completitud del clúster es el parámetro esencial para una buena agrupación, si dos objetos de datos tienen características similares, se asignan a la misma categoría del clúster de acuerdo con la realidad del terreno. La completitud del clúster es alta si los objetos son de la misma categoría.
Consideremos el agrupamiento C1, que contiene los subgrupos s1 y s2, donde los miembros del grupo s1 y s2 pertenecen a la misma categoría según la verdad fundamental. Consideremos otro clúster C2 que es idéntico a C1 pero ahora s1 y s2 se fusionan en un solo clúster. Luego, definimos la medida de la calidad del agrupamiento, Q, y de acuerdo con la completitud del agrupamiento C2, tendrá más calidad del agrupamiento en comparación con el C1, es decir, Q(C2, Cg ) > Q(C1, Cg ).
3. Ragbag: en algunas situaciones, puede haber algunas categorías en las que los objetos de esas categorías no se pueden fusionar con otros objetos. Luego, la calidad de esas categorías de conglomerados se mide mediante el método Rag Bag. De acuerdo con el método de la bolsa de trapo, deberíamos colocar el objeto heterogéneo en una categoría de bolsa de trapo.
Consideremos un agrupamiento C1 y un agrupamiento C ∈ C1 de modo que todos los objetos en C pertenezcan a la misma categoría del agrupamiento C1 excepto el objeto o de acuerdo con la verdad fundamental. Considere un agrupamiento C2 que es idéntico a C1 excepto que o está asignado a un agrupamiento D que contiene los objetos de diferentes categorías. De acuerdo con la realidad básica, esta situación es ruidosa y la calidad del agrupamiento se mide utilizando el criterio de la bolsa de trapo. definimos la medida de calidad de agrupamiento, Q, y de acuerdo con los criterios del método de bolsa de trapo C2, tendrá más calidad de agrupamiento en comparación con C1, es decir, Q (C2, Cg)> Q (C1, Cg).
4. Preservación de grupos pequeños: si una categoría pequeña de grupos se divide aún más en partes pequeñas, esas partes pequeñas del grupo se convierten en ruido para todo el grupo y, por lo tanto, se vuelve difícil identificar esa categoría pequeña del grupo. El criterio de preservación de grupos pequeños establece que no es aconsejable dividir una categoría pequeña en partes y disminuye aún más la calidad de los grupos ya que las piezas de los grupos son distintivas. Suponga que el agrupamiento C1 se ha dividido en tres grupos, C11 = {d1, . . . , dn}, C12 = {dn+1} y C13 = {dn+2}.
Deje que el agrupamiento C2 también se divida en tres grupos, a saber, C1 = {d1, . . . , dn−1}, C2 = {dn} y C3 = {dn+1,dn+2}. Como C1 divide la categoría pequeña de objetos y C2 divide la categoría grande que se prefiere de acuerdo con la regla mencionada anteriormente, la medida de calidad de agrupación Q debería otorgar una puntuación más alta a C2, es decir, Q(C2, Cg) > Q(C1, CG).