Usa pandas para calcular estadísticas en Python

La realización de varias operaciones estadísticas complejas en python se puede reducir fácilmente a comandos de una sola línea usando pandas. Discutiremos algunas de las operaciones estadísticas más útiles y comunes en esta publicación. Usaremos el conjunto de datos de supervivencia del Titanic para demostrar tales operaciones.

Python3

# Import Pandas Library
import pandas as pd
 
# Load Titanic Dataset as Dataframe
dataset = pd.read_csv('train.csv')
 
# Show dataset
# head() bydefault show
# 5 rows of the dataframe
dataset.head()

Producción:

Titanic dataframe

1. Media:

Calcula el valor medio o promedio utilizando el método DataFrame/Series.mean() .

Sintaxis: DataFrame/Series.mean(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)

Parámetros:

  • eje: {índice (0), columnas (1)}

          Especifique el eje en el que se aplicará la función.

  • skipna:  este parámetro toma valor bool, el valor predeterminado es verdadero

           Excluye valores nulos al calcular el resultado.

  • level: este parámetro toma un valor int o nombre de nivel, el valor predeterminado es Ninguno.

          Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.

  • numeric_only : este parámetro toma valor bool, el valor predeterminado es Ninguno

           Incluya solo columnas flotantes, int y booleanas. Si es Ninguno, intentará usar todo, luego use solo valores de datos numéricos. No implementado para Serie.

  • **kwargs: Argumentos adicionales para pasar a la función.

Devoluciones:  Media de Serie o DataFrame (si se especifica el nivel)

Código:

Python3

# Calculate the Mean
# of 'Age' column
mean = dataset['Age'].mean()
 
# Print mean
print(mean)

Producción: 

29.69911764705882

2. Mediana:

Calcula el valor de la mediana mediante el método DataFrame/Series.median() .

Sintaxis: DataFrame/Series.median(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)

Parámetros:

  • eje: {índice (0), columnas (1)}

          Especifique el eje en el que se aplicará la función.

  • skipna:  este parámetro toma valor bool, el valor predeterminado es verdadero

          Excluye valores nulos al calcular el resultado.

  • nivel: Este parámetro toma el nombre de nivel o int, por defecto Ninguno

          Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.

  • numeric_only:  este parámetro toma valor bool, el valor predeterminado es Ninguno

          Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.

  • **kwargs: Argumentos adicionales para pasar a la función.

Devoluciones:  mediana de serie o marco de datos (si se especifica el nivel)

Código:

Python3

# Calculate Median of 'Fare' column
median = dataset['Fare'].median()
 
# Print median
print(median)

Producción: 

14.4542

3. Modo:

Calcula la moda o el valor más frecuente utilizando el método DataFrame.mode() .

Sintaxis: DataFrame/Series.mode(self, axis=0, numeric_only=False, dropna=True)

Parámetros:

  • eje : {índice (0), columnas (1)}

          El eje sobre el que iterar mientras se busca el valor de modo:

          0 valor o ‘índice’: modo de obtención de cada columna

          1 valor o ‘columnas’: obtiene el modo de cada fila.

  • numeric_only:  este parámetro toma valor bool, el valor predeterminado es falso.

           Si es verdadero, solo se aplica a las columnas de valores numéricos.

  • dropna: Este parámetro toma valor bool, el valor por defecto es True.

           No considere recuentos de valor NaN/Ninguno.

Devuelve : valor de frecuencia más alto. 

Código :

Python3

# Calculate Mode of 'Sex' column
mode = dataset['Sex'].mode()
 
# Print mode
print(mode)

Producción: 

0    male
dtype: object

4. Cuenta:

Calcula el recuento o la frecuencia de valores no nulos mediante el método DataFrame/Series.count() .

Sintaxis: DataFrame/Series.count(self, axis=0, level=Ninguno, numeric_only=False)

Parámetros:

  • eje: {0 o ‘índice’, 1 o ‘columnas’}, el valor predeterminado es 0

          Si el valor es 0 o ‘índice’, se generan recuentos para cada columna. Si el valor es 1 o ‘columnas’, se generan recuentos para cada fila.

  • level: (opcional) Este parámetro toma el valor int o str.

          Si el eje es de tipo MultiIndex, cuente a lo largo de un nivel particular, colapsando en un DataFrame. Se utiliza una string que especifica el nombre del nivel.

  • numeric_only:  este parámetro toma valor bool, por defecto es falso

          Incluya solo datos flotantes, int o booleanos. Devoluciones: devuelva el valor de frecuencia más alto 

Devuelve : para cada columna/fila, el número de entradas no nulas. Si se especifica el nivel, devuelve una estructura DataFrame.

Código:

Python3

# Calculate Count of 'Ticket' column
count = dataset['Ticket'].count()
 
# Print count
print(count)

Producción: 

891

5. Desviación estándar:

Calcula la desviación estándar de los valores mediante el método DataFrame/Series.std() .

Sintaxis : DataFrame/Series.std(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, ddof=1, numeric_only=Ninguno, **kwargs)

Parámetros:

  • eje : {índice (0), columnas (1)}
  • skipna: este parámetro toma un valor bool, el valor predeterminado es True.

          Excluir NA/valores nulos. Si una fila/columna completa tiene valores NA, el resultado será un valor NA.

  • nivel: Este parámetro toma el nombre de nivel o int, el valor predeterminado es Ninguno.

          Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.

  • ddof : este parámetro toma un valor int, el valor predeterminado es 1.

          Grados de libertad delta. El divisor utilizado en los cálculos es N – ddof, donde el valor N representa el número de elementos.

  • numeric_only : Este parámetro toma valor bool, por defecto Ninguno

          Incluya solo columnas flotantes, int y booleanas. Si es Ninguno, intentará usar todo, luego use solo datos numéricos. No implementado para Serie.

Devoluciones : desviación estándar 

Código:

Python3

# Calculate Standard Deviation
# of 'Fare' column
std = dataset['Fare'].std()
 
# Print standard deviation
print(std)

Salida

49.693428597180905

6. Máx.:

Calcula el valor máximo utilizando el método DataFrame/Series.max() .

Sintaxis: DataFrame/Series.max(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)

Parámetros:

  • eje: {índice (0), columnas (1)}

          Especifique el eje en el que se aplicará la función.

  • skipna: booleano , por defecto Verdadero

          Excluye valores nulos al calcular el resultado.

  • nivel: int o nombre de nivel, predeterminado Ninguno

          Si el eje es de tipo MultiIndex, cuenta a lo largo de un nivel particular, colapsando en una Serie.

  • numeric_only: booleano , predeterminado Ninguno

           Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.

  • **kwargs: palabra clave adicional para pasar a la función.

Devoluciones : valor máximo en serie o marco de datos (si se especifica el nivel)

Código :

Python3

# Calculate Maximum value in 'Age' column
maxValue = dataset['Age'].max()
 
# Print maxValue
print(maxValue)

Salida

80.0

7. Mínimo:

Calcula el valor mínimo utilizando el método DataFrame/Series.min() .

Sintaxis: DataFrame/Series.min(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)

Parámetros:

  • eje: {índice (0), columnas (1)}

          Especifique el eje en el que se aplicará la función.

  • skipna: booleano , por defecto Verdadero

          Excluye valores nulos al calcular el resultado.

  • nivel: int o nombre de nivel, predeterminado Ninguno

          Si el eje es de tipo MultiIndex, cuenta a lo largo de un nivel particular, colapsando en una Serie.

  • numeric_only: booleano , predeterminado Ninguno

           Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.

  • **kwargs: palabra clave adicional para pasar a la función.

Devoluciones: Valor mínimo en Serie o DataFrame (si se especifica el nivel)

Código :

Python3

# Calculate Minimum value in 'Fare' column
minValue = dataset['Fare'].min()
 
# Print minValue
print(minValue)

Producción: 

0.0000

8. Describa:

Resume las estadísticas descriptivas generales utilizando el método DataFrame/Series.describe() .

Sintaxis: DataFrame/Series.describe(self: ~ FrameOrSeries, percentiles=Ninguno, incluir=Ninguno, excluir=Ninguno) 

Parámetros:

  • percentiles: lista de números, opcional
  • Incluyo : ‘todos’, como una lista de tipos de d o valores de Ninguno (predeterminado), opcional
  • excluir : como una lista de dtypes o ninguno de los valores (predeterminado), opcional,

Devoluciones: Resumen estadístico de la Serie o Dataframe proporcionado.

Python3

# Statistical summary
dataset.describe()

Producción:

Titanic dataframe describe

Publicación traducida automáticamente

Artículo escrito por adityamankar y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *