Normalización de datos en minería de datos

La normalización se utiliza para escalar los datos de un atributo de modo que caigan en un rango más pequeño, como -1.0 a 1.0 o 0.0 a 1.0. Generalmente es útil para algoritmos de clasificación.

Necesidad de Normalización –

La normalización generalmente se requiere cuando tratamos con atributos en una escala diferente; de ​​lo contrario, puede conducir a una dilución en la efectividad de un atributo importante igualmente importante (en una escala más baja) debido a que otro atributo tiene valores en una escala más grande.
En palabras simples, cuando hay múltiples atributos pero los atributos tienen valores en diferentes escalas, esto puede conducir a modelos de datos deficientes al realizar operaciones de minería de datos. Por lo tanto, se normalizan para traer todos los atributos en la misma escala.

Métodos de Normalización de Datos –

  • Escalado decimal
  • Normalización mín-máx
  • Normalización de puntuación z (normalización de media cero)

Método de escalado decimal para la normalización –

Se normaliza moviendo el punto decimal de los valores de los datos. Para normalizar los datos mediante esta técnica, dividimos cada valor de los datos por el valor absoluto máximo de los datos. El valor de los datos, v i , de los datos se normaliza a vi ‘ usando la fórmula a continuación,

donde j es el entero más pequeño tal que max(|v i |)<1.

Ejemplo –

Deje que los datos de entrada sean: -10, 201, 301, -401, 501, 601, 701

Para normalizar los datos anteriores,
Paso 1: Valor absoluto máximo en los datos dados (m): 701
Paso 2: Dividir los datos dados por 1000 (es decir, j=3)

Resultado: Los datos normalizados son: -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701

Normalización Mín-Máx –

En esta técnica de normalización de datos, la transformación lineal se realiza sobre los datos originales. Se obtiene el valor mínimo y máximo de los datos y cada valor se reemplaza de acuerdo con la siguiente fórmula.

Donde A es el atributo de datos,
Min(A), Max(A) son el valor absoluto mínimo y máximo de A respectivamente.
v’ es el nuevo valor de cada entrada en datos.
v es el valor antiguo de cada entrada en datos.
new_max(A), new_min(A) es el valor máximo y mínimo del rango (es decir, el valor límite del rango requerido) respectivamente.

Normalización de puntuación Z –

En esta técnica, los valores se normalizan en función de la media y la desviación estándar de los datos A. La fórmula utilizada es:

v’, v es el nuevo y el antiguo de cada entrada de datos, respectivamente. σ A , es la desviación estándar y la media de A respectivamente.

Publicación traducida automáticamente

Artículo escrito por deepak_jain y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *