La biblioteca pandas_profiling en Python incluye un método denominado ProfileReport() que genera un informe básico sobre el DataFrame de entrada.
El informe consiste en lo siguiente:
- Descripción general de la trama de datos,
- Cada atributo en el que se define DataFrame,
- Correlaciones entre atributos (Correlación de Pearson y Correlación de Spearman), y
- Una muestra de DataFrame.
Sintaxis:
pandas_profiling.ProfileReport(df, **kwargs)
Argumentos | Escribe | Descripción |
---|---|---|
d.f. | Marco de datos | Datos a analizar |
contenedores | En t | Número de contenedores en el histograma. El valor predeterminado es 10. |
verificar_correlación | booleano | Si comprobar o no la correlación. Es `Verdadero` por defecto. |
correlación_umbral | flotar | Umbral para determinar si el par de variables está correlacionado. El valor predeterminado es 0,9. |
correlación_anulaciones | lista | Nombres de variables que no deben rechazarse porque están correlacionados. No hay ninguna variable en la lista (`Ninguna`) por defecto. |
cheque_recodificado | booleano | Si verificar o no la correlación registrada (característica de gran cantidad de memoria). Dado que es un cálculo costoso, se puede activar para pequeños conjuntos de datos. `check_correlation` debe ser verdadero para deshabilitar esta verificación. Es `Falso` por defecto. |
tamaño de la piscina | En t | Número de trabajadores en el grupo de subprocesos. El valor predeterminado es igual al número de CPU. |
Ejemplo:
Python3
# importing packages import pandas as pd import pandas_profiling as pp # dictionary of data dct = {'ID': {0: 23, 1: 43, 2: 12, 3: 13, 4: 67, 5: 89, 6: 90, 7: 56, 8: 34}, 'Name': {0: 'Ram', 1: 'Deep', 2: 'Yash', 3: 'Aman', 4: 'Arjun', 5: 'Aditya', 6: 'Divya', 7: 'Chalsea', 8: 'Akash' }, 'Marks': {0: 89, 1: 97, 2: 45, 3: 78, 4: 56, 5: 76, 6: 100, 7: 87, 8: 81}, 'Grade': {0: 'B', 1: 'A', 2: 'F', 3: 'C', 4: 'E', 5: 'C', 6: 'A', 7: 'B', 8: 'B'} } # forming dataframe and printing data = pd.DataFrame(dct) print(data) # forming ProfileReport and save # as output.html file profile = pp.ProfileReport(data) profile.to_file("output.html")
Producción:
El archivo html llamado output.html es el siguiente:
Publicación traducida automáticamente
Artículo escrito por deepanshu_rustagi y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA