Tipos de valores atípicos en la minería de datos

Un valor atípico es un objeto de datos que se desvía significativamente del resto de los objetos de datos y se comporta de manera diferente. Un valor atípico es un objeto que se desvía significativamente del resto de los objetos. Pueden ser causados ​​por errores de medición o de ejecución. El análisis de datos de valores atípicos se conoce como análisis de valores atípicos o minería de valores atípicos.

 Un valor atípico no puede denominarse ruido o error. En cambio, se sospecha que no se generaron con el mismo método que el resto de los objetos de datos. 

Los valores atípicos son de tres tipos, a saber:

  1. Valores atípicos globales (o puntuales)
  2. Valores atípicos colectivos
  3. Valores atípicos contextuales (o condicionales)

1. Valores atípicos globales

También se conocen como puntos atípicos . Estas son la forma más simple de valores atípicos. Si, en un conjunto de datos determinado, un punto de datos se desvía mucho del resto de los puntos de datos, se lo conoce como un valor atípico global. En su mayoría, todos los métodos de detección de valores atípicos tienen como objetivo encontrar valores atípicos globales. 

Por ejemplo, en el sistema de detección de intrusos, si se transmite una gran cantidad de paquetes en un período de tiempo muy corto, esto puede considerarse un valor atípico global y podemos decir que ese sistema en particular ha sido potencialmente pirateado.

El punto de datos rojo es un valor atípico global.

2. Valores atípicos colectivos

Como sugiere el nombre, si en un conjunto de datos dado, algunos de los puntos de datos, en su conjunto, se desvían significativamente del resto del conjunto de datos, pueden denominarse valores atípicos colectivos. Aquí, los objetos de datos individuales pueden no ser valores atípicos, pero cuando se ven como un todo, pueden comportarse como valores atípicos. Para detectar estos tipos de valores atípicos, es posible que necesitemos información básica sobre la relación entre esos objetos de datos que muestran el comportamiento de los valores atípicos.

Por ejemplo: En un Sistema de Detección de Intrusos, un paquete DOS (denegación de servicio) de una computadora a otra puede considerarse como un comportamiento normal. Sin embargo, si esto sucede con varias computadoras al mismo tiempo, esto puede considerarse un comportamiento anormal y, en su conjunto, pueden denominarse valores atípicos colectivos. 

Los puntos de datos rojos en su conjunto son valores atípicos colectivos.

3. Valores atípicos contextuales

También se conocen como valores atípicos condicionales. Aquí, si en un conjunto de datos dado, un objeto de datos se desvía significativamente de los otros puntos de datos en función de un contexto o condición específicos solamente. Un punto de datos puede ser un valor atípico debido a una determinada condición y puede mostrar un comportamiento normal bajo otra condición. Por lo tanto, se debe especificar un contexto como parte del enunciado del problema para identificar los valores atípicos contextuales. El análisis de valores atípicos contextuales brinda flexibilidad a los usuarios, donde se pueden examinar los valores atípicos en diferentes contextos, lo que puede ser muy deseable en muchas aplicaciones. Los atributos del punto de datos se deciden sobre la base de los atributos contextuales y de comportamiento. 

Por ejemplo: una lectura de temperatura de 40 °C puede comportarse como un valor atípico en el contexto de una «temporada de invierno», pero se comportará como un punto de datos normal en el contexto de una «temporada de verano».

 Un valor de temperatura baja en junio es un valor atípico contextual porque el mismo valor en diciembre no es un valor atípico.

Publicación traducida automáticamente

Artículo escrito por riyaaggarwal y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *