Una base de datos puede contener objetos de datos que no cumplen con el comportamiento o modelo general de los datos. Estos objetos de datos son valores atípicos. La investigación de datos OUTLIER se conoce como OUTLIER MINING. Se puede detectar un valor atípico mediante pruebas estadísticas que asumen un modelo de distribución o probabilidad para los datos, o mediante medidas de distancia donde los objetos que tienen una pequeña fracción de vecinos «cercanos» en el espacio se consideran valores atípicos. En lugar de utilizar medidas fácticas o de distancia, las técnicas basadas en desviaciones distinguen excepciones/valores atípicos al inspeccionar las diferencias en los atributos principales de los elementos de un grupo.
Un grupo de objetos de datos que se desvía significativamente del conjunto de datos completo se denomina valor atípico colectivo. En el valor atípico colectivo, existe la posibilidad de que cada objeto individual no sea un valor atípico. La detección de valores atípicos colectivos es más difícil que la detección de valores atípicos convencional y contextual, ya que es necesario examinar la estructura de las relaciones del conjunto de datos entre múltiples objetos de datos.
Minería de datos de valores atípicos colectivos:
La minería de datos atípica colectiva depende completamente del tipo de estructura de datos. Pero predeterminar la estructura de los objetos de datos es una tarea difícil y, en ocasiones, puede resultar imposible. exploramos las estructuras internas que están formadas por estructuras de datos temporales como segmentos de la serie temporal o subsecuencias. exploramos las áreas locales para detectar valores atípicos colectivos en los datos espaciales. exploramos subgrafos en gráficos y datos de red interconectados. La detección de valores atípicos contextuales es similar a la detección de valores atípicos colectivos porque en ambos métodos de detección se exploran las subestructuras y las áreas locales. En la detección de valores atípicos contextuales, el contexto de los objetos de datos se considera como el atributo principal para detectar los valores atípicos.
Aquí, la información contextual es el atributo estructural. la detección colectiva de valores atípicos es un desafío a medida que se exploran las estructuras de datos para detectar los valores atípicos. También depende del tipo de aplicación y de los objetos de datos. Dado que el proceso de minería de detección colectiva de valores atípicos involucra varias técnicas sofisticadas de minería de datos y aprendizaje automático, tiene un alto costo computacional. Pero la detección colectiva de valores atípicos es prácticamente aplicable en muchas situaciones.
Los métodos colectivos de detección de valores atípicos son de dos tipos diferentes. En la primera categoría, el problema de la detección colectiva de valores atípicos se reduce a la detección convencional de valores atípicos. Identifica las unidades estructurales de los datos y de cada una de las unidades estructurales (ya sea un segmento de serie temporal, un área local o un subgráfico) se extraen características significativas para determinar los valores atípicos colectivos. Ahora el problema de la detección de valores atípicos colectivos se transforma en detección de valores atípicos. Los objetos de datos cuyo comportamiento se desvía de las características extraídas de las estructuras se consideran valores atípicos. Mientras que todos los objetos normales exhiben un tipo similar de comportamiento estructural.
La segunda categoría de detección de valores atípicos colectivos es construir el modelo del comportamiento esperado de las unidades estructurales de los atributos. Por ejemplo, para detectar los valores atípicos colectivos en datos espaciales, podemos construir un modelo extrayendo el comportamiento característico de las unidades estructurales de los atributos de datos. Los objetos de datos se identifican como valores atípicos colectivos si se desvían del modelo.
Detección colectiva de valores atípicos en datos gráficos:
La detección colectiva de valores atípicos se puede realizar en la red social. las redes sociales se pueden asumir como un gráfico sin etiquetar. Cada subgrafo posible de la red o grafo puede tratarse como una unidad estructural, que es el criterio importante para encontrar los valores atípicos en el gráfico. Consideramos las dos características, a saber, el número de vértices en el subgrafo S y la frecuencia del subgrafo particular en la red para detectar valores atípicos en el gráfico o la red. Es decir, la frecuencia (S) es el número de subgrafos en la red que son similares y tienen propiedades isomórficas en la red. Si el subgrafo contiene varios vértices y una frecuencia alta en comparación con los otros subgrafos, se identifica como el valor atípico colectivo. En general, se espera que los subgrafos con menos vértices numéricos sean los subgrafos frecuentes. Se supone que los subgrafos grandes son menos frecuentes. Pero durante la experimentación, si tanto la frecuencia como el número de vértices son altos, estos se declaran como valores atípicos en la red social.
La detección colectiva de valores atípicos es sutil debido al desafío de explorar las estructuras en los datos. La exploración suele utilizar heurística y, por lo tanto, puede depender de la aplicación. El costo computacional suele ser alto debido al sofisticado proceso de minería. Si bien es muy útil en la práctica, la detección colectiva de valores atípicos sigue siendo una dirección desafiante que requiere más investigación y desarrollo.