La detección de valores atípicos significa descubrir los objetos de datos cuyas propiedades y comportamiento son diferentes del resto de los objetos en el clúster o los conjuntos de datos. La detección de valores atípicos es el proceso de encontrar los valores atípicos de los objetos normales. Es fundamental realizar la Detección de valores atípicos durante el preprocesamiento de datos. Los valores atípicos afectan en gran medida el rendimiento de los modelos de clasificación y agrupación. Hay muchos métodos de detección de valores atípicos en la minería de datos. Algunos de ellos son los siguientes:
- Métodos basados en la proximidad
- Métodos basados en cuadrículas
- Métodos basados en la distancia
- Métodos basados en agrupamiento
Existen algunos desafíos al aplicar estos métodos de detección de valores atípicos.
Para obtener más detalles, consulte el artículo Tipos de valores atípicos .
Los desafíos de los métodos de detección de valores atípicos en la minería de datos se enumeran a continuación.
- Modelado eficaz de valores atípicos normales: la calidad de la detección de valores atípicos depende del modelado de objetos normales (que no son atípicos). A menudo, construir un modelo para encontrar la normalidad de los datos es muy desafiante y quizás imposible porque es difícil determinar todas las propiedades de comportamiento de los objetos normales. Es difícil predecir el límite entre valores atípicos normales y valores atípicos anormales. algunos métodos de detección de valores atípicos distinguen los valores atípicos asignando cada dato de entrada a un objeto con una etiqueta como «normal» o «atípico». Mientras que otros métodos utilizan la medida de puntuación como factor para decidir si el objeto es un valor atípico. Según la consistencia de la aplicación y su tipo de datos, se elige el método de detección de valores atípicos.
- Detección de valores atípicos específicos de la aplicación: el modelo de relación depende del tipo de aplicación y describe las características normales de los objetos de datos. Diferentes aplicaciones requieren diferentes tipos de datos como entrada y requieren varios algoritmos de modelado y análisis. Ejemplo: en el análisis de datos clínicos, una pequeña desviación de los valores de los datos refleja la elección de un valor atípico. Por el contrario, en el análisis de marketing, se necesita una desviación mayor de los valores de los datos para justificar un valor atípico. La elección del método de detección de valores atípicos depende del tipo de aplicación. Necesitamos encontrar los valores atípicos de una gran variedad de datos de aplicaciones, por lo que los tipos de datos de estos conjuntos de datos pueden variar. No existe un método único de detección de valores atípicos para todas las aplicaciones.
- Manejo del ruido en la detección de valores atípicos: el ruido suele estar presente en todos los conjuntos de datos. El ruido también está presente en los valores atípicos. Pero existe la suposición errónea de que el ruido y los valores atípicos son lo mismo. El ruido hace que la calidad del conjunto de datos sea imperfecta. El ruido a menudo ocurre cuando los datos se recopilan de muchos recursos y aplicaciones. El ruido en los conjuntos de datos se debe a las tuplas duplicadas, los valores faltantes y la desviación de los atributos de los datos. El ruido en los conjuntos de datos hace que los datos sean pobres y se convierte en un gran desafío para la detección de valores atípicos. Si hay ruido en los datos, se vuelve difícil recuperar los objetos normales y separar los valores atípicos de los conjuntos de datos. Los valores perdidos pueden ocultar valores atípicos y reducir la posibilidad de detección de valores atípicos.
- Comprensibilidad: en algunos casos, un cliente requiere la condición de por qué un objeto en particular se ha convertido en un valor atípico, ya que puede ser útil para el proceso de aplicaciones. Debe haber un criterio condicional específico y una justificación para distinguir los objetos normales de los atípicos. Y esa justificación debe estar bien formulada. y comprensible. Ejemplo: Es claro entender la detección de valores atípicos de proximidad ya que los objetos normales tienen casi las medidas de proximidad mientras que los valores atípicos difieren mucho en su medida de proximidad.