El método group_by() se usa para dividir y segregar la fecha en función de los grupos contenidos en las columnas específicas. La columna requerida para agrupar se especifica como un argumento de esta función. Puede contener varios nombres de columna.
Sintaxis:
grupo_por(col1, col2, …)
Ejemplo 1: Agrupar por una variable
R
# installing required libraries library("dplyr") # creating a data frame data_frame <- data.frame(col1 = sample(6:7, 9 , replace = TRUE), col2 = letters[1:3], col3 = c(1,4,5,1,NA,NA,2,NA,2)) print ("Original DataFrame") print (data_frame) print ("Modified DataFrame") # computing difference of each group data_frame%>%group_by(col1)
Producción
[1] "Original DataFrame" col1 col2 col3 1 6 a 1 2 7 b 4 3 7 c 5 4 6 a 1 5 7 b NA 6 6 c NA 7 6 a 2 8 6 b NA 9 7 c 2 [1] "Modified DataFrame" # A tibble: 9 x 3 # Groups: col1 [2] col1 col2 col3 <int> <chr> <dbl> 1 6 a 1 2 7 b 4 3 7 c 5 4 6 a 1 5 7 b NA 6 6 c NA 7 6 a 2 8 6 b NA 9 7 c 2
La agrupación también se puede realizar utilizando múltiples columnas que pertenecen al marco de datos para esto, solo se deben pasar los nombres de las columnas a la función.
Ejemplo 2: Agrupar por varias columnas
R
# installing required libraries library("dplyr") # creating a data frame data_frame <- data.frame(col1 = sample(6:7, 9 , replace = TRUE), col2 = letters[1:3], col3 = c(1,4,5,1,NA,NA,2,NA,2)) print ("Original DataFrame") print (data_frame) print ("Modified DataFrame") # computing difference of each group data_frame%>%group_by(col1,col2)
Producción
[1] "Original DataFrame" col1 col2 col3 1 7 a 1 2 7 b 4 3 7 c 5 4 6 a 1 5 6 b NA 6 6 c NA 7 7 a 2 8 6 b NA 9 6 c 2 [1] "Modified DataFrame" # A tibble: 9 x 3 # Groups: col1, col2 [6] col1 col2 col3 <int> <chr> <dbl> 1 7 a 1 2 7 b 4 3 7 c 5 4 6 a 1 5 6 b NA 6 6 c NA 7 7 a 2 8 6 b NA 9 6 c 2