Enfoques basados ​​en agrupamiento para la detección de valores atípicos en la minería de datos

El análisis de agrupamiento es el proceso de dividir un conjunto de objetos de datos en subconjuntos. Cada subconjunto es un grupo tal que los objetos son similares entre sí. El conjunto de conglomerados obtenidos del análisis de conglomerados se puede denominar conglomerados. Por ejemplo: Segregar clientes en un mercado Retail como cliente frecuente, cliente nuevo.

Enfoques básicos en Clustering:

Métodos de partición:

Se utiliza para encontrar grupos esféricos mutuamente excluyentes. Se basa en clústeres remotos. Utiliza tecnología de movimiento iterativo para mejorar la partición. Para representar el centro del conglomerado, podemos usar la media o el punto central. Esto es muy efectivo para conjuntos de datos pequeños y medianos.  

Métodos jerárquicos:

Crea una descomposición jerárquica del registro de datos especificado del objeto de datos. Pueden basarse en la distancia o la densidad y la continuidad. Se dividen en método de cohesión y método de división. Si es así, esto es un caso atípico.  

Métodos basados ​​en la densidad:

Este método es un enfoque basado en la densidad para encontrar grupos de forma arbitraria. La idea general del método basado en la densidad es continuar haciendo crecer un grupo determinado siempre que la densidad exceda cierto umbral. Principalmente consideran clústeres exclusivos, no los clústeres efervescentes. Se pueden extender desde el espacio completo hasta el agrupamiento de subespacios.

Métodos basados ​​en cuadrículas:

Aquí cuantificamos el objeto en una cuadrícula finita de celdas que forman una estructura de cuadrícula. Todas las operaciones se realizan solo en la estructura de cuadrícula. La principal ventaja de este método es el tiempo de procesamiento que es mucho más rápido e independiente de la cantidad de objetos.

Enfoques basados ​​en grupos para detectar valores atípicos: 

Los métodos de detección de valores atípicos basados ​​en agrupamiento asumen que los objetos de datos normales pertenecen a grupos grandes y densos, mientras que los valores atípicos pertenecen a grupos pequeños o dispersos, o no pertenecen a ningún grupo. Los enfoques basados ​​en agrupamiento detectan valores atípicos extrayendo la relación entre Objetos y Clúster. Un objeto es atípico si  

  • ¿El objeto pertenece a algún grupo? Si no, entonces se identifica como un valor atípico.
  • ¿Hay una gran distancia entre el objeto y el cúmulo al que está más cercano? Si es así, es un caso atípico.
  • ¿Es el objeto parte de un grupo pequeño o disperso? En caso afirmativo, todos los objetos de ese grupo son valores atípicos.

Comprobación de un valor atípico:

 

Este K-Means hace uso de una relación dist(o, co)/x  

dónde,

co es el centro más cercano al objeto o y 

dist(o, co) es la distancia entre o y co 

x es la distancia media entre co y o

Tenga en cuenta que cada uno de los procedimientos que hemos visto hasta ahora detecta elementos de objetos individuales como valores atípicos porque evalúan los elementos por separado en oposición a los grupos dentro del conjunto de datos. Sin embargo, en un gran conjunto de información, algunos valores atípicos pueden ser comparables y formar un grupo pequeño. Los procedimientos mencionados hasta ahora pueden ser engañados a través de tales valores atípicos.

Para superar este problema, el tercer método para la detección de valores atípicos totalmente basados ​​en clústeres identifica grupos pequeños o dispersos y declara que los elementos en los grupos de uno también son valores atípicos. Una instancia de este método es el conjunto de reglas FindCBLOF, que coincide de la siguiente manera.

1. Encuentre grupos en un conjunto de información y escríbalos en el paso con la reducción de la longitud. El conjunto de reglas asume que el máximo de los factores de información no son valores atípicos. Hace uso de un parámetro α (0 ≤ α ≤ 1) para diferenciar los clústeres grandes de los pequeños. Cualquier grupo que incorpore al menos un porcentaje α (p. ej., α = 90 %) del conjunto de información se considera un «grupo enorme». Los grupos finales se notan como «pequeños grupos».

2. A cada factor de información, asigne un factor de valor atípico totalmente cercano basado en un clúster (CBLOF). Para un factor que pertenece a un gran conglomerado, su CBLOF se hace a partir de la longitud del conglomerado y la similitud entre el factor y el conglomerado. Para un factor que pertenece a un pequeño conglomerado, su CBLOF se calcula porque se hace a partir de las dimensiones del pequeño conglomerado y la similitud entre el factor y el gran conglomerado más cercano. CBLOF define la similitud entre un factor y un conglomerado de manera estadística que representa la oportunidad de que el factor pertenezca al conglomerado. Cuanto mayor sea el valor, más comparables son el factor y el grupo. La calificación CBLOF puede ubicar factores atípicos que podrían estar a cierta distancia de cualquier grupo. Además, Se tienen en cuenta los pequeños grupos que pueden estar a cierta distancia de cualquier grupo grande para abarcar los valores atípicos. Se sospecha que los factores con las clasificaciones inferiores de CBLOF son valores atípicos. Para detectar valores atípicos en grupos pequeños, buscamos el factor de valor atípico local basado en grupos. Para encontrar CBLOF debemos seguir los siguientes pasos:

  • Encuentra los grupos y ordénalos en orden decreciente.
  • A cada grupo, los puntos agregan un factor de valor atípico local.
  • Si el objeto p pertenece a una parte mayor del conglomerado, CBLOF = producto del tamaño del conglomerado y la similitud entre punto y conglomerado.
  • Si el objeto p pertenece a uno más pequeño, CBLOF = producto del tamaño del grupo y la similitud entre el punto y el grupo más grande más cercano.

Los procedimientos totalmente basados ​​en la agrupación en clústeres también pueden incurrir en costos computacionales excesivos si deben detectar clústeres antes de detectar valores atípicos. Se habían propuesto varias estrategias para mejorar la eficiencia. Por ejemplo, el agrupamiento de ancho fijo es un método de tiempo lineal que se utiliza en algunos métodos de detección de valores atípicos. El concepto es fácil pero eficiente. Se asigna un factor a un conglomerado si la mitad del conglomerado se encuentra dentro de un umbral de distancia predefinido desde el factor. Si no se puede asignar un factor a ningún clúster actual, se crea el nuevo clúster. 

Puntos fuertes y débiles de la detección de valores atípicos basados ​​en clústeres:

Ventajas : el método de detección de valores atípicos basado en clústeres tiene las siguientes ventajas. Primero, pueden detectar valores atípicos sin etiquetar los datos, es decir, están fuera de control. Usted trata con múltiples tipos de datos. Puede pensar en un clúster como una colección de datos. Una vez que se obtiene el conglomerado, el método basado en conglomerados solo necesita comparar el objeto con el conglomerado para determinar si el objeto es un valor atípico. Este proceso suele ser rápido porque el número de clústeres suele ser pequeño en comparación. En el número total de objetos.  

Desventajas : la debilidad de la detección de valores atípicos de agrupación es su eficacia, que depende en gran medida del método de agrupación utilizado. Estos métodos no se pueden optimizar para la detección de valores atípicos. Las técnicas de agrupación en clústeres para grandes conjuntos de datos suelen ser costosas, lo que puede ser un cuello de botella.

 

 

 

Publicación traducida automáticamente

Artículo escrito por aravindharavindh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *