La puntuación Z es un concepto importante en estadística. La puntuación Z también se denomina puntuación estándar. Esta puntuación ayuda a comprender si el valor de un dato es mayor o menor que la media y qué tan lejos está de la media. Más específicamente, la puntuación Z indica a cuántas desviaciones estándar se encuentra un punto de datos de la media.
Puntuación Z = (x -media) / std. desviación
A continuación se muestra una distribución normal y se estima que el
68% de los puntos de datos se encuentran entre +/- 1 desviación estándar.
El 95 % de los puntos de datos se encuentran entre +/- 2 desviaciones estándar
El 99,7 % de los puntos de datos se encuentran entre +/- 3 desviaciones estándar
Z score and Outliers:
If the z score of a data point is more than 3, it indicates that the data point is quite different from the other data points. Such a data point can be an outlier.
For example, in a survey, it was asked how many children a person had.
Suppose the data obtained from people is
1, 2, 2, 2, 3, 1, 1, 15, 2, 2, 2, 3, 1, 1, 2
Claramente, 15 es un valor atípico en este conjunto de datos.
Calculemos la puntuación Z usando Python para encontrar este valor atípico.
Paso 1: importa las bibliotecas necesarias
import numpy as np
Paso 2: Calcular la media, la desviación estándar
data = [1, 2, 2, 2, 3, 1, 1, 15, 2, 2, 2, 3, 1, 1, 2] mean = np.mean(data) std = np.std(data) print('mean of the dataset is', mean) print('std. deviation is', std)
Producción:
mean of the dataset is 2.6666666666666665 std. deviation is 3.3598941782277745
Paso 3: Calcule la puntuación Z. Si el puntaje Z> 3, imprímalo como un valor atípico.
threshold = 3 outlier = [] for i in data: z = (i-mean)/std if z > threshold: outlier.append(i) print('outlier in dataset is', outlier)
Producción:
outlier in dataset is [15]
Conclusión : la puntuación Z nos ayuda a identificar valores atípicos en los datos.