Enfoques basados ​​en clasificación en minería de datos

La clasificación es el procesamiento de encontrar un grupo de modelos (o funciones) que describen y distinguen clases de datos o conceptos, con el objetivo de tener la capacidad de usar el modelo para predecir la categoría de objetos cuya etiqueta de clase se desconoce. El modelo determinado depende de la investigación de un conjunto de información de datos de entrenamiento (es decir, objetos de datos cuya etiqueta de clase se conoce). El modelo derivado también podría representarse en varias formas, como reglas de clasificación (si – entonces), árboles de decisión y redes neuronales. La minería de datos tiene un tipo diferente de clasificador: una clasificación es una forma de análisis de datos que extrae modelos que describen clases de datos importantes. Estos modelos se denominan Clasificadores. Por ejemplo, podemos construir un modelo de clasificación para que los bancos clasifiquen las requests de préstamo.

Un enfoque general para la clasificación:

La clasificación es un proceso de dos pasos que involucra,

Paso de Aprendizaje: Es un paso donde se va a construir el modelo de Clasificación. En esta fase, los datos de entrenamiento se analizan mediante un algoritmo de clasificación.

Paso de clasificación: es un paso en el que se emplea el modelo para predecir etiquetas de clase para datos dados. En esta fase, los datos de prueba suelen estimar la precisión de las reglas de clasificación.

Algoritmos básicos de clasificación:

Inducción del árbol de decisión:

  • La inducción del árbol de decisión es el aprendizaje de árboles de decisión a partir de tuplas de entrenamiento etiquetadas como clases.
  • Dada una tupla X, para la cual se desconoce la etiqueta de clase de asociación, los valores de los atributos de las tuplas se comparan con el árbol de decisión.
  • Una ruta que se rastrea desde la raíz hasta el Node hoja, que contiene la predicción de clase para la tupla.
  • Estos árboles se convierten luego en reglas de clasificación.
  • Los árboles de decisión son más fáciles de interrumpir si no necesitan ningún conocimiento de dominio.

Clasificación bayesiana ingenua:

  • Son Clasificadores Estadísticos.
  • Pueden predecir las probabilidades de pertenencia a una clase, como la probabilidad de que una tupla dada pertenezca a una clase en particular.
  • Los clasificadores ingenuos asumen que el efecto del valor de un atributo en una clase es independiente de los valores de otros atributos.
  • La fórmula matemática para esta clasificación es,

                                                     P(H|X)=P(X|H)P(X)/P(X)

donde H es una hipótesis y p(H|X) es una probabilidad de que H tenga la evidencia dada para la tupla X (datos observados)

p(X|H) es la probabilidad posterior de X condicionada a H 

Clasificación basada en reglas:

  • Las reglas son una buena manera de representar información o conocimiento.
  • Un clasificador basado en reglas utiliza un conjunto de reglas SI-ENTONCES para la clasificación y se representa como

                                                     IF  condition THEN rules

  • La parte SI se llama condición previa y la parte ENTONCES se llama regla consecuente.
  • Esto implica que solo si se cumple la condición se ejecutará la siguiente parte (ENTONCES).

 

Ahora veamos cómo clasificar los valores atípicos. Una base de datos puede contener objetos de datos que no se adaptan al comportamiento o modelo general de la información. Estos objetos de datos son valores atípicos. La investigación de datos OUTLIER se entiende como OUTLIER MINING. También se puede detectar o clasificar un valor atípico mediante pruebas estadísticas que asumen un modelo de distribución o probabilidad para la información, o mediante medidas de distancia donde los objetos que tienen una pequeña fracción de vecinos «cercanos» en el espacio se consideran valores atípicos. En lugar de utilizar medidas fácticas o de distancia, las técnicas basadas en desviaciones distinguen excepciones/valores atípicos al inspeccionar las diferencias dentro de las características principales de las cosas en un grupo.

La detección de valores atípicos (también conocida como detección de anomalías) es el proceso de encontrar objetos de datos con comportamientos que son muy diferentes de las expectativas. Estos objetos se denominan valores atípicos o anomalías. La detección de valores atípicos es vital en muchas aplicaciones, además de la detección de fraudes, como asistencia médica, seguridad pública, detección de daños en la industria, procesamiento de imágenes, vigilancia de redes de sensores/vídeos y detección de intrusos.

En general, los valores atípicos suelen clasificarse en tres categorías, a saber, valores atípicos globales, valores atípicos contextuales (o condicionales) y valores atípicos colectivos. Examinemos cada una de estas categorías.

Valores atípicos globales : durante un conjunto de datos dado, un objeto de conocimiento puede ser un valor atípico global si se desvía significativamente del resto del conjunto de información. Los valores atípicos globales a veces se denominan anomalías puntuales y son el único tipo de valores atípicos. La mayoría de los métodos de detección de valores atípicos están destinados a encontrar valores atípicos globales.

Valores atípicos contextuales: durante un conjunto de datos dado, un objeto de conocimiento también podría ser un valor atípico contextual si se desvía significativamente con respecto a un contexto específico de la cosa. Los valores atípicos contextuales también se conocen como valores atípicos condicionales porque están condicionados al contexto elegido. Por lo tanto, en la detección de valores atípicos contextuales, el contexto debe especificarse como una vecindad de la definición del asunto. A diferencia de la detección de valores atípicos globales, en la detección de valores atípicos contextuales, si un objeto de conocimiento es un valor atípico depende no solo de los atributos de comportamiento sino también de los atributos contextuales. Los valores atípicos contextuales son una generalización de los valores atípicos locales, una noción introducida en los enfoques de análisis de valores atípicos basados ​​en la densidad. Un objeto durante un conjunto de datos puede ser un valor atípico local si su densidad se desvía significativamente del área local durante la cual ocurre.

Valores atípicos colectivos : durante un conjunto de datos dado, un subconjunto de objetos de conocimiento forma un valor atípico colectivo si los objetos en su conjunto se desvían significativamente del conjunto de datos completo. Es importante destacar que los objetos de datos individuales pueden no ser valores atípicos. A diferencia de la detección de valores atípicos globales o contextuales, en la detección de valores atípicos colectivos, tenemos que pensar no solo en el comportamiento de los objetos individuales sino también en el de grupos de objetos. Por lo tanto, para detectar valores atípicos colectivos, nos gustaría conocer el fondo de la conexión entre los objetos de datos, como la distancia o las medidas de similitud entre los objetos.

Publicación traducida automáticamente

Artículo escrito por aravindharavindh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *