Perfiles de Pandas en Python

La biblioteca pandas_profiling en Python incluye un método denominado ProfileReport() que genera un informe básico sobre el DataFrame de entrada. 

El informe consiste en lo siguiente:

  • Descripción general de la trama de datos,
  • Cada atributo en el que se define DataFrame,
  • Correlaciones entre atributos (Correlación de Pearson y Correlación de Spearman), y
  • Una muestra de DataFrame.

Sintaxis:

pandas_profiling.ProfileReport(df, **kwargs)
Argumentos                                                                    Escribe                                                   Descripción
d.f. Marco de datos Datos a analizar
contenedores En t Número de contenedores en el histograma. El valor predeterminado es 10.
verificar_correlación booleano Si comprobar o no la correlación. Es `Verdadero` por defecto.
correlación_umbral flotar Umbral para determinar si el par de variables está correlacionado. El valor predeterminado es 0,9.
correlación_anulaciones lista Nombres de variables que no deben rechazarse porque están correlacionados. No hay ninguna variable en la lista (`Ninguna`) por defecto.
cheque_recodificado booleano Si verificar o no la correlación registrada (característica de gran cantidad de memoria). Dado que es un cálculo costoso, se puede activar para pequeños conjuntos de datos. `check_correlation` debe ser verdadero para deshabilitar esta verificación. Es `Falso` por defecto.
tamaño de la piscina En t Número de trabajadores en el grupo de subprocesos. El valor predeterminado es igual al número de CPU.

Ejemplo:

Python3

# importing packages
import pandas as pd
import pandas_profiling as pp
  
  
# dictionary of data
dct = {'ID': {0: 23, 1: 43, 2: 12, 3: 13, 
              4: 67, 5: 89, 6: 90, 7: 56, 
              8: 34}, 
       'Name': {0: 'Ram', 1: 'Deep', 2: 'Yash',
                3: 'Aman', 4: 'Arjun', 5: 'Aditya',
                6: 'Divya', 7: 'Chalsea',
                8: 'Akash' }, 
       'Marks': {0: 89, 1: 97, 2: 45, 3: 78,
                 4: 56, 5: 76, 6: 100, 7: 87,
                 8: 81}, 
       'Grade': {0: 'B', 1: 'A', 2: 'F', 3: 'C',
                 4: 'E', 5: 'C', 6: 'A', 7: 'B',
                 8: 'B'}
      }
  
# forming dataframe and printing
data = pd.DataFrame(dct)
print(data)
  
# forming ProfileReport and save
# as output.html file
profile = pp.ProfileReport(data)
profile.to_file("output.html")

Producción:

El archivo html llamado output.html es el siguiente:

Publicación traducida automáticamente

Artículo escrito por deepanshu_rustagi y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *