En el caso de un conjunto de datos del mundo real, es muy común que falten algunos valores en el conjunto de datos. Representamos estos valores faltantes como valores NaN (No es un número). Pero para construir un buen modelo de aprendizaje automático, nuestro conjunto de datos debe estar completo. Es por eso que usamos algunas técnicas de imputación para reemplazar los valores de NaN con algunos valores probables. Pero antes de hacer eso, debemos comprender bien cómo se distribuyen los valores de NaN en nuestro conjunto de datos.
La biblioteca Missingno ofrece una forma muy agradable de visualizar la distribución de los valores de NaN. Missingno es una biblioteca de Python y compatible con Pandas.
Instalar la biblioteca –
pip install missingno
Para obtener el conjunto de datos utilizado en el código, haga clic aquí .
Array:
Con esta array, puede encontrar muy rápidamente el patrón de ausencia en el conjunto de datos. En nuestro ejemplo, las columnas AAWhiteSt-4
y SulphidityL-4
tienen un patrón similar de valores faltantes, mientras que UCZAA muestra un patrón diferente.
# Program to visualize missing values in dataset # Importing the libraries import pandas as pd import missingno as msno # Loading the dataset df = pd.read_csv("kamyr-digester.csv") # Visualize missing values as a matrix msno.matrix(df)
Producción:
Gráfico de barras :
Este gráfico de barras le da una idea de cuántos valores faltantes hay en cada columna. En nuestro ejemplo, AAWhiteSt-4
y SulphidityL-4
contiene la mayor cantidad de valores faltantes, seguido de UCZAA.
# Program to visualize missing values in dataset # Importing the libraries import pandas as pd import missingno as msno # Loading the dataset df = pd.read_csv("kamyr-digester.csv") # Visualize the number of missing # values as a bar chart msno.bar(df)
Producción:
Mapa de calor :
El mapa de calor muestra la correlación de faltantes entre cada 2 columnas. En nuestro ejemplo, la correlación entre AAWhiteSt-4 y SulphidityL-4 es 1, lo que significa que si uno de ellos está presente, el otro debe estar presente.
Un valor cercano a -1 significa que si aparece una variable, es muy probable que falte la otra variable .
Un valor cercano a 0 significa que no hay dependencia entre la ocurrencia de valores faltantes de dos variables.
Un valor cercano a 1 significa que si aparece una variable, es muy probable que la otra variable esté presente .
# Program to visualize missing values in dataset # Importing the libraries import pandas as pd import missingno as msno # Loading the dataset df = pd.read_csv("kamyr-digester.csv") # Visualize the correlation between the number of # missing values in different columns as a heatmap msno.heatmap(df)
Producción:
Referencia: https://github.com/ResidentMario/missingno
Publicación traducida automáticamente
Artículo escrito por SujanDutta y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA