Un valor atípico es un objeto que se desvía significativamente del resto de los objetos. Pueden ser causados por errores de medición o de ejecución. El análisis de datos de valores atípicos se conoce como análisis de valores atípicos o minería de valores atípicos.
Un valor atípico es un objeto de datos que se desvía significativamente del resto de los objetos de datos y se comporta de manera diferente. Un valor atípico es un objeto que se desvía significativamente del resto de los objetos. Pueden ser causados por errores de medición o de ejecución. El análisis de datos de valores atípicos se conoce como análisis de valores atípicos o minería de valores atípicos.
Los valores atípicos son objetos de datos aislados que no siguen las tendencias generales de los datos. Los valores atípicos causan muchos problemas cuando estamos trabajando en aprendizaje automático o aprendizaje profundo y también afectan la precisión del modelo. Por lo tanto, detectar y eliminar valores atípicos será muy importante.
Detección de valores atípicos:
La detección de valores atípicos es una extensión natural de las técnicas de minería de datos. Como la minería de datos es la extracción de patrones o tendencias generales en grandes conjuntos de datos, la detección de valores atípicos es el descubrimiento de objetos de datos que se desvían significativamente de dichos patrones o tendencias generales. Tales objetos de datos que se desvían significativamente de otros objetos de datos en un conjunto de datos se conocen como valores atípicos.
Para conocer los tipos de valores atípicos, consulte: Tipos de valores atípicos en la minería de datos
Encontrar objetos de datos que sean significativamente diferentes de otros objetos es una actividad importante. Al sobresalir entre la multitud, los valores atípicos podrían representar objetos que, de alguna manera, son mucho mejores o mucho peores que la tendencia general. Pueden representar objetos que necesitan ser tratados de alguna manera especial. También es posible que representen datos ingresados erróneamente o incluso ruido.
Eche un vistazo al mejor ejemplo de cómo ayuda la detección de valores atípicos en la minería de datos.
- Detección de fraude: La detección de fraude es muy importante en el mundo moderno. Como los casos de fraude aumentan día a día, como un fraude en una transacción de tarjeta de crédito, una solicitud de préstamo bancario y muchos más, la detección de valores atípicos nos ayuda a detectar este fraude como un caso atípico, ya que representan instancias que se desvían de las tendencias normales.
- Medicina: en el cuidado de la salud, la detección de valores atípicos es importante, es decir, los síntomas inusuales o los resultados de las pruebas pueden indicar posibles problemas de salud de los pacientes. y hay muchas otras aplicaciones de detección de valores atípicos en minería de datos.
Métodos de detección de valores atípicos basados en la distancia
Un método de detección de valores atípicos basado en la distancia consulta la vecindad de un objeto, que está definida por un radio determinado. Entonces, un objeto se considera un valor atípico si su vecindad no tiene suficientes otros puntos. Esto se denomina Métodos de detección de valores atípicos basados en la distancia.
- Los métodos basados en la distancia generalmente dependen de un índice multidimensional, que se utiliza para recuperar la vecindad de cada objeto para ver si contiene suficientes puntos. Si no hay puntos suficientes, entonces el objeto se denomina un valor atípico.
- Los métodos basados en la distancia se adaptan mejor al espacio multidimensional y se pueden calcular de manera más eficiente que el método basado en estadísticas. La identificación de valores atípicos basados en la distancia es una actividad de minería de datos importante y útil. La principal desventaja de los métodos basados en la distancia es que la detección de valores atípicos basada en la distancia se basa en un valor único de un parámetro personalizado. Esto puede causar problemas significativos si el conjunto de datos contiene regiones densas y dispersas.
Los métodos de detección de valores atípicos se pueden categorizar según si la muestra de datos para el análisis se proporciona con etiquetas proporcionadas por expertos que se pueden usar para construir un modelo de detección de valores atípicos. En este caso, los métodos de detección son supervisados, semi-supervisados o no supervisados. Alternativamente, los métodos de detección de valores atípicos pueden organizarse de acuerdo con sus supuestos con respecto a los objetos normales frente a los valores atípicos. Esta categorización incluye métodos estadísticos, métodos basados en proximidad y métodos basados en agrupamiento.
Algoritmos para extraer valores atípicos basados en la distancia:
A continuación se muestran algunos algoritmos que se utilizan para extraer valores atípicos basados en la distancia de manera más eficiente.
- Algoritmo basado en índices: el algoritmo basado en índices facilita estructuras de indexación multidimensionales, incluidos árboles R o árboles kd, para buscar vecinos de cada objeto o dentro del radio d alrededor de ese objeto. Una vez que se descubren K (K = N(1-p)) vecinos del objeto o, es accesible que o no es un valor atípico. Este algoritmo tiene la complejidad de caso más baja de O (k * n 2 ), donde k es la dimensionalidad y n es el número de objetos en el conjunto de datos.
- Algoritmo de bucle anidado: el algoritmo de bucle anidado tiene la misma complejidad de evaluación que el algoritmo basado en índice, pero evita la creación de estructuras de índice y minimiza la cantidad de E/S. Divide el búfer de memoria por la mitad y coloca los datos en varios bloques lógicos.
- Algoritmo basado en celdas: Evita la complejidad computacional O(n 2 ) y desarrolla un algoritmo basado en celdas para conjuntos de datos residentes en memoria. Su complejidad es O(c*k + n), donde c es una constante basada en el número de celdas y k es la dimensión.
Publicación traducida automáticamente
Artículo escrito por ishukatiyar16 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA