Diferentes fases de agrupamiento proyectado en análisis de datos

En este artículo, vamos a discutir en detalle las diferentes fases del agrupamiento proyectado en el análisis de datos.

Tres fases para el agrupamiento proyectado:

  1. Fase de inicialización
  2. Fase Iterativa
  3. Fase de Refinamiento

Estos se explican a continuación a continuación.

1. Fase de inicialización:
esta fase consta de dos pasos para seleccionar el superconjunto.

  • En el primer paso, recoge puntos de datos de una muestra aleatoria cuyo tamaño es proporcional a la cantidad de grupos que el usuario desea producir, que se da como,
    S= random sample size A.k,

    donde A es una constante y k representa el número de conglomerados.

  • El segundo paso que usa el método codicioso se logra para adquirir un conjunto final de puntos Bk, donde B es una pequeña constante.

Este conjunto se designa como M donde se aplica la técnica de escalada durante la siguiente fase.

  • Elija un conjunto de muestra de puntos de datos al azar.
  • Elija un conjunto de puntos de datos que probablemente sean los medoides del grupo.

2. Fase iterativa:
desde la fase de inicialización, obtuvimos un conjunto de puntos de datos que deberían contener los medoids. En esta fase, encontraremos los mejores medoides de M. Recoge aleatoriamente el conjunto de puntos M actuales y restaura los medoides «malos» de otro punto en M si es necesario para mejorar la calidad del clúster. El conjunto medoide significativo recién formado se designa como M mejor.

Para los medoides, lo siguiente se hará de la siguiente manera.

  • Identificar las dimensiones asociadas a los medoides.
  • Asigne puntos de datos a los medoides.
  • Medir los racimos formados.
  • Identifique el medoide pobre y pruebe el resultado de restaurar el medoide pobre.
  • El procedimiento anterior se replica hasta que obtengamos un resultado satisfactorio.

3. Fase de refinamiento – Manejar valores atípicos:

  • El paso final de este algoritmo es la fase de refinamiento. Esta fase comprende de mejor calidad de los agrupamientos formados.
  • Los grupos C1,C2,C3,….,Ck formados durante la fase iterativa son la alimentación de esta fase.
  • El conjunto de datos nativos se pasa una o más veces para mejorar la calidad de los clústeres.
  • Los conjuntos de dimensiones Di encontrados durante la fase iterativa se desechan y se calculan nuevos conjuntos de dimensiones para cada uno de los conjuntos de clústeres Ci.
  • Una vez que se calculan las nuevas dimensiones para los grupos, los puntos se reasignan a los medoides en comparación con estos nuevos conjuntos de dimensiones.
  • Los valores atípicos se determinan en el último paso sobre los datos.

Mayor inconveniente:

  • El algoritmo requiere el número promedio de dimensiones por grupo como marco de entrada. El rendimiento del agrupamiento proyectado está muy sensibilizado con el valor de su marco de entrada.
  • Si el número promedio de dimensiones se estima erróneamente, la presentación del agrupamiento proyectado empeora significativamente.

Publicación traducida automáticamente

Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *