La realización de varias operaciones estadísticas complejas en python se puede reducir fácilmente a comandos de una sola línea usando pandas. Discutiremos algunas de las operaciones estadísticas más útiles y comunes en esta publicación. Usaremos el conjunto de datos de supervivencia del Titanic para demostrar tales operaciones.
Python3
# Import Pandas Library import pandas as pd # Load Titanic Dataset as Dataframe dataset = pd.read_csv('train.csv') # Show dataset # head() bydefault show # 5 rows of the dataframe dataset.head()
Producción:
1. Media:
Calcula el valor medio o promedio utilizando el método DataFrame/Series.mean() .
Sintaxis: DataFrame/Series.mean(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)
Parámetros:
- eje: {índice (0), columnas (1)}
Especifique el eje en el que se aplicará la función.
- skipna: este parámetro toma valor bool, el valor predeterminado es verdadero
Excluye valores nulos al calcular el resultado.
- level: este parámetro toma un valor int o nombre de nivel, el valor predeterminado es Ninguno.
Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.
- numeric_only : este parámetro toma valor bool, el valor predeterminado es Ninguno
Incluya solo columnas flotantes, int y booleanas. Si es Ninguno, intentará usar todo, luego use solo valores de datos numéricos. No implementado para Serie.
- **kwargs: Argumentos adicionales para pasar a la función.
Devoluciones: Media de Serie o DataFrame (si se especifica el nivel)
Código:
Python3
# Calculate the Mean # of 'Age' column mean = dataset['Age'].mean() # Print mean print(mean)
Producción:
29.69911764705882
2. Mediana:
Calcula el valor de la mediana mediante el método DataFrame/Series.median() .
Sintaxis: DataFrame/Series.median(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)
Parámetros:
- eje: {índice (0), columnas (1)}
Especifique el eje en el que se aplicará la función.
- skipna: este parámetro toma valor bool, el valor predeterminado es verdadero
Excluye valores nulos al calcular el resultado.
- nivel: Este parámetro toma el nombre de nivel o int, por defecto Ninguno
Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.
- numeric_only: este parámetro toma valor bool, el valor predeterminado es Ninguno
Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.
- **kwargs: Argumentos adicionales para pasar a la función.
Devoluciones: mediana de serie o marco de datos (si se especifica el nivel)
Código:
Python3
# Calculate Median of 'Fare' column median = dataset['Fare'].median() # Print median print(median)
Producción:
14.4542
3. Modo:
Calcula la moda o el valor más frecuente utilizando el método DataFrame.mode() .
Sintaxis: DataFrame/Series.mode(self, axis=0, numeric_only=False, dropna=True)
Parámetros:
- eje : {índice (0), columnas (1)}
El eje sobre el que iterar mientras se busca el valor de modo:
0 valor o ‘índice’: modo de obtención de cada columna
1 valor o ‘columnas’: obtiene el modo de cada fila.
- numeric_only: este parámetro toma valor bool, el valor predeterminado es falso.
Si es verdadero, solo se aplica a las columnas de valores numéricos.
- dropna: Este parámetro toma valor bool, el valor por defecto es True.
No considere recuentos de valor NaN/Ninguno.
Devuelve : valor de frecuencia más alto.
Código :
Python3
# Calculate Mode of 'Sex' column mode = dataset['Sex'].mode() # Print mode print(mode)
Producción:
0 male dtype: object
4. Cuenta:
Calcula el recuento o la frecuencia de valores no nulos mediante el método DataFrame/Series.count() .
Sintaxis: DataFrame/Series.count(self, axis=0, level=Ninguno, numeric_only=False)
Parámetros:
- eje: {0 o ‘índice’, 1 o ‘columnas’}, el valor predeterminado es 0
Si el valor es 0 o ‘índice’, se generan recuentos para cada columna. Si el valor es 1 o ‘columnas’, se generan recuentos para cada fila.
- level: (opcional) Este parámetro toma el valor int o str.
Si el eje es de tipo MultiIndex, cuente a lo largo de un nivel particular, colapsando en un DataFrame. Se utiliza una string que especifica el nombre del nivel.
- numeric_only: este parámetro toma valor bool, por defecto es falso
Incluya solo datos flotantes, int o booleanos. Devoluciones: devuelva el valor de frecuencia más alto
Devuelve : para cada columna/fila, el número de entradas no nulas. Si se especifica el nivel, devuelve una estructura DataFrame.
Código:
Python3
# Calculate Count of 'Ticket' column count = dataset['Ticket'].count() # Print count print(count)
Producción:
891
5. Desviación estándar:
Calcula la desviación estándar de los valores mediante el método DataFrame/Series.std() .
Sintaxis : DataFrame/Series.std(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, ddof=1, numeric_only=Ninguno, **kwargs)
Parámetros:
- eje : {índice (0), columnas (1)}
- skipna: este parámetro toma un valor bool, el valor predeterminado es True.
Excluir NA/valores nulos. Si una fila/columna completa tiene valores NA, el resultado será un valor NA.
- nivel: Este parámetro toma el nombre de nivel o int, el valor predeterminado es Ninguno.
Si el eje es un MultiÍndice, cuente a lo largo de un nivel particular, colapsando en una Serie.
- ddof : este parámetro toma un valor int, el valor predeterminado es 1.
Grados de libertad delta. El divisor utilizado en los cálculos es N – ddof, donde el valor N representa el número de elementos.
- numeric_only : Este parámetro toma valor bool, por defecto Ninguno
Incluya solo columnas flotantes, int y booleanas. Si es Ninguno, intentará usar todo, luego use solo datos numéricos. No implementado para Serie.
Devoluciones : desviación estándar
Código:
Python3
# Calculate Standard Deviation # of 'Fare' column std = dataset['Fare'].std() # Print standard deviation print(std)
Salida :
49.693428597180905
6. Máx.:
Calcula el valor máximo utilizando el método DataFrame/Series.max() .
Sintaxis: DataFrame/Series.max(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)
Parámetros:
- eje: {índice (0), columnas (1)}
Especifique el eje en el que se aplicará la función.
- skipna: booleano , por defecto Verdadero
Excluye valores nulos al calcular el resultado.
- nivel: int o nombre de nivel, predeterminado Ninguno
Si el eje es de tipo MultiIndex, cuenta a lo largo de un nivel particular, colapsando en una Serie.
- numeric_only: booleano , predeterminado Ninguno
Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.
- **kwargs: palabra clave adicional para pasar a la función.
Devoluciones : valor máximo en serie o marco de datos (si se especifica el nivel)
Código :
Python3
# Calculate Maximum value in 'Age' column maxValue = dataset['Age'].max() # Print maxValue print(maxValue)
Salida :
80.0
7. Mínimo:
Calcula el valor mínimo utilizando el método DataFrame/Series.min() .
Sintaxis: DataFrame/Series.min(self, axis=Ninguno, skipna=Ninguno, level=Ninguno, numeric_only=Ninguno, **kwargs)
Parámetros:
- eje: {índice (0), columnas (1)}
Especifique el eje en el que se aplicará la función.
- skipna: booleano , por defecto Verdadero
Excluye valores nulos al calcular el resultado.
- nivel: int o nombre de nivel, predeterminado Ninguno
Si el eje es de tipo MultiIndex, cuenta a lo largo de un nivel particular, colapsando en una Serie.
- numeric_only: booleano , predeterminado Ninguno
Incluya solo columnas flotantes, int y booleanas. Si el valor es Ninguno, intentará usar todo, luego usará solo datos numéricos.
- **kwargs: palabra clave adicional para pasar a la función.
Devoluciones: Valor mínimo en Serie o DataFrame (si se especifica el nivel)
Código :
Python3
# Calculate Minimum value in 'Fare' column minValue = dataset['Fare'].min() # Print minValue print(minValue)
Producción:
0.0000
8. Describa:
Resume las estadísticas descriptivas generales utilizando el método DataFrame/Series.describe() .
Sintaxis: DataFrame/Series.describe(self: ~ FrameOrSeries, percentiles=Ninguno, incluir=Ninguno, excluir=Ninguno)
Parámetros:
- percentiles: lista de números, opcional
- Incluyo : ‘todos’, como una lista de tipos de d o valores de Ninguno (predeterminado), opcional
- excluir : como una lista de dtypes o ninguno de los valores (predeterminado), opcional,
Devoluciones: Resumen estadístico de la Serie o Dataframe proporcionado.
Python3
# Statistical summary dataset.describe()
Producción:
Publicación traducida automáticamente
Artículo escrito por adityamankar y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA