Python | Visualice los valores de valores perdidos (NaN) utilizando Missingno Library

En el caso de un conjunto de datos del mundo real, es muy común que falten algunos valores en el conjunto de datos. Representamos estos valores faltantes como valores NaN (No es un número). Pero para construir un buen modelo de aprendizaje automático, nuestro conjunto de datos debe estar completo. Es por eso que usamos algunas técnicas de imputación para reemplazar los valores de NaN con algunos valores probables. Pero antes de hacer eso, debemos comprender bien cómo se distribuyen los valores de NaN en nuestro conjunto de datos.

La biblioteca Missingno ofrece una forma muy agradable de visualizar la distribución de los valores de NaN. Missingno es una biblioteca de Python y compatible con Pandas.

Instalar la biblioteca –

pip install missingno

Para obtener el conjunto de datos utilizado en el código, haga clic aquí .

Array:

Con esta array, puede encontrar muy rápidamente el patrón de ausencia en el conjunto de datos. En nuestro ejemplo, las columnas AAWhiteSt-4y SulphidityL-4tienen un patrón similar de valores faltantes, mientras que UCZAA muestra un patrón diferente.

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize missing values as a matrix
msno.matrix(df)

Producción:

Gráfico de barras :

Este gráfico de barras le da una idea de cuántos valores faltantes hay en cada columna. En nuestro ejemplo, AAWhiteSt-4y SulphidityL-4contiene la mayor cantidad de valores faltantes, seguido de UCZAA.

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize the number of missing
# values as a bar chart
msno.bar(df)

Producción:

Mapa de calor :

El mapa de calor muestra la correlación de faltantes entre cada 2 columnas. En nuestro ejemplo, la correlación entre AAWhiteSt-4 y SulphidityL-4 es 1, lo que significa que si uno de ellos está presente, el otro debe estar presente.

Un valor cercano a -1 significa que si aparece una variable, es muy probable que falte la otra variable .
Un valor cercano a 0 significa que no hay dependencia entre la ocurrencia de valores faltantes de dos variables.
Un valor cercano a 1 significa que si aparece una variable, es muy probable que la otra variable esté presente .

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
  
# Visualize the correlation between the number of
# missing values in different columns as a heatmap
msno.heatmap(df)

Producción:

Referencia: https://github.com/ResidentMario/missingno

Publicación traducida automáticamente

Artículo escrito por SujanDutta y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *