¿Cómo encontrar estadísticas de resumen grupales para el marco de datos R?

Encontrar estadísticas de resumen grupales para el marco de datos es muy útil para comprender nuestro marco de datos. El resumen incluye datos estadísticos: media, mediana, mín., máx. y cuartiles del marco de datos dado. El resumen se puede calcular en una sola columna o variable, o en todo el marco de datos. En este artículo, veremos cómo encontrar estadísticas de resumen grupales para el marco de datos en el lenguaje de programación R.

Importación de datos en lenguaje R

En el siguiente código, hemos utilizado un conjunto de datos incorporado: conjunto de datos de flores de iris. Luego podemos inspeccionar nuestro conjunto de datos usando la función head() o tail() que imprimirá la parte superior e inferior del marco de datos. En el código a continuación, hemos mostrado las 10 filas superiores de nuestro marco de datos de muestra.

R

# import data
df <- iris
  
# inspecting the dataset
head(df, 10) 

Producción:

Resumen de una sola variable o columna

Nuestro marco de datos se almacena en la variable » df «. Queremos imprimir el resumen de la columna: Sepal.Length. Por lo tanto, pasamos «df$Sepal.length» como argumento en la función de resumen().  

Sintaxis: resumen (marco de datos $nombre_columna)

La función summary() toma una columna de marco de datos y devuelve: 

  • Tendencia central-> media y mediana, 
  • Rango intercuartílico-> cuartiles 25 y 75,
  • Rango-> valores mínimos y máximos para esa sola columna.

Ejemplo 1:

R

df <- iris
summary(df$Sepal.Length)

Producción:

Ejemplo 2: También podemos pasar los » dígitos » como un argumento que especifica hasta cuántos lugares decimales queremos corregir nuestros valores de salida

Sintaxis: resumen (marco de datos $nombre_columna, dígitos = número_de_lugares_decimales)

R

df <- iris
summary(df$Sepal.Width, digits = 3)

Producción:

 

Resumen de todo el marco de datos

En el siguiente código, hemos pasado el marco de datos completo como argumento en la función de resumen() , por lo que calcula un resumen del marco de datos completo (todas las columnas o variables)

Sintaxis: resumen (nombre del marco de datos)

R

df <- iris
summary(df)

Producción:

Resumen de datos por grupos

Para una mejor comprensión de Dataframe en R, se recomienda consultar el artículo R – Data Frames .

Primero creemos un marco de datos de muestra: 

R

df <- data.frame(
  Weekday = factor(rep(c("Mon", "Tues", "Wed",
                         "Thurs", "Fri"), each = 4), 
                     
                levels = c("Mon", "Tues", "Wed", 
                           "Thurs", "Fri")),
    
  Quarter = paste0("Q", rep(1:4, each = 5)), 
    
  Delay = c(9.9, 5.4, 8.8, 6.9, 4.9, 9.7, 7.9, 5, 8.8,
            11.1, 10.2, 9.3, 12.2, 10.2, 9.2, 9.7, 12.2,
            8.1, 7.9, 5.6))
  
df

Producción:

Resumen de datos grupales de variable única

Nuestro marco de datos consta de 3 variables: Día de la semana , Trimestre y Retraso . La variable que resumiremos es Retraso y, en el proceso , la variable Trimestre se contraerá. 

En el siguiente código, usaremos el paquete dplyr . El paquete dplyr en R es una estructura de manipulación de datos que proporciona un conjunto uniforme de verbos, lo que ayuda a resolver los obstáculos de manipulación de datos más frecuentes. Realizaremos una operación de agrupación usando la función group_by() y una operación de resumen usando la función resume() . Luego calcularemos 2 resúmenes estadísticos: tiempo máximo de demora y tiempo mínimo de demora.

Sintaxis: group_by(nombre_variable)

R

library(dplyr)
df <- data.frame(
  Weekday = factor(rep(c("Mon", "Tues", "Wed", "Thurs",
                         "Fri"), each = 4), 
                     
                levels = c("Mon", "Tues", "Wed", "Thurs",
                           "Fri")),
    
  Quarter = paste0("Q", rep(1:4, each = 5)), 
  Delay = c(9.9, 5.4, 8.8, 6.9, 4.9, 9.7, 7.9, 5, 8.8,
            11.1, 10.2, 9.3, 12.2, 10.2, 9.2, 9.7, 12.2,
            8.1, 7.9, 5.6))
  
  
df %>% 
  group_by(Weekday) %>% 
  summarize(min_delay = min(Delay), max_delay = max(Delay))

Producción:

Resumen de datos grupales de variable múltiple

Vamos a crear otro marco de datos de muestra ->df2:

R

# sample dataframe
df2 <- data.frame(
  Quarter = paste0("Q", rep(1:4, each = 4)), 
  Week = rep(c("Weekday", "Weekend"), each=2, times=4),
  Direction = rep(c("Inbound", "Outbound"), times=8),
  Delay = c(10.8, 9.7, 15.5, 10.4, 11.8, 8.9, 5.5, 
            3.3, 10.6, 8.8, 6.6, 5.2, 9.1, 7.3, 5.3, 4.4))
  
df2

Producción:

Resumiendo los datos por grupos:

En este caso, nuestro marco de datos tiene 4 variables: Trimestre, Semana, Dirección, Retraso . En el siguiente código, hemos agrupado y resumido por Trimestre y Semana y, en el proceso, la variable Dirección se colapsa.

Sintaxis: group_by(variable_name1,variable_name2 )

R

library(dplyr)
  
# sample dataframe
df2 <- data.frame(
  Quarter = paste0("Q", rep(1:4, each = 4)), 
  Week = rep(c("Weekday", "Weekend"), each=2, times=4),
  Direction = rep(c("Inbound", "Outbound"), times=8),
  Delay = c(10.8, 9.7, 15.5, 10.4, 11.8, 8.9, 5.5, 
            3.3, 10.6, 8.8, 6.6, 5.2, 9.1, 7.3, 5.3, 4.4))
  
# summarizing by group
df2 %>% 
  group_by(Quarter, Week) %>% 
  summarize(min_delay = min(Delay), max_delay = max(Delay))

Salida :

Publicación traducida automáticamente

Artículo escrito por sudhanshublaze y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *