Manipulación de datos en R con paquete Dplyr

En este artículo, analicemos la manipulación de datos en el lenguaje de programación R.

Para manipular los datos, R proporciona una biblioteca llamada dplyr que consta de muchos métodos integrados para manipular los datos. Entonces, para usar la función de manipulación de datos, primero debe importar el paquete dplyr usando la línea de código de la biblioteca (dplyr) . A continuación se muestra la lista de algunas funciones de manipulación de datos presentes en el paquete dplyr.

Nombre de la función

Descripción

filtrar()

Produce un subconjunto de un marco de datos.

distinto()

Elimina filas duplicadas en un marco de datos

arreglar()

Reordenar las filas de un marco de datos

Seleccione()

Produce datos en las columnas requeridas de un marco de datos

rebautizar()

Renombra los nombres de las variables

mudar()

Crea nuevas variables sin descartar las antiguas.

transmutar()

Crea nuevas variables eliminando las antiguas.

resumir()

Proporciona datos resumidos como Promedio, Suma, etc.

método de filtro()

La función filter() se usa para producir el subconjunto de datos que satisface la condición especificada en el método filter(). En la condición, podemos usar operadores condicionales, operadores lógicos, valores NA, operadores de rango, etc. para filtrar datos. La sintaxis de la función filter() se proporciona a continuación:

filtro (nombre del marco de datos, condición)

Ejemplo:

En el siguiente código, usamos la función de filtro() para obtener los datos de los jugadores que anotaron más de 100 carreras desde el marco de datos de «estadísticas».

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, NA, 5))
  
# fetch players who scored more 
# than 100 runs
filter(stats, runs>100)

Producción

  player runs wickets
1      B  200      20
2      C  408      NA

método distinto()

El método distinto() elimina las filas duplicadas del marco de datos o en función de las columnas especificadas. La sintaxis del método distinto() se proporciona a continuación:

distinto (nombre del marco de datos, col1, col2, .., .keep_all = TRUE)

Ejemplo: 

Aquí, en este ejemplo, usamos el método distinto() para eliminar las filas duplicadas del marco de datos y también eliminar los duplicados en función de una columna específica.

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D', 'A', 'A'),
                runs=c(100, 200, 408, 19, 56, 100),
                wickets=c(17, 20, NA, 5, 2, 17))
  
# removes duplicate rows
distinct(stats)
  
#remove duplicates based on a column
distinct(stats, player, .keep_all = TRUE)

Producción

  player runs wickets
1      A  100      17
2      B  200      20
3      C  408      NA
4      D   19       5
5      A   56       2
  player runs wickets
1      A  100      17
2      B  200      20
3      C  408      NA
4      D   19       5

método de arreglo()

En R, el método de arreglo() se usa para ordenar las filas en función de una columna específica. La sintaxis del método de arreglo() se especifica a continuación:

organizar (nombre del marco de datos, nombre de la columna)

Ejemplo:

En el siguiente código, ordenamos los datos en función de las ejecuciones de menor a mayor utilizando la función de arreglo().

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, NA, 5))
  
# ordered data based on runs
arrange(stats, runs)

Producción

  player runs wickets
1      D   19       5
2      A  100      17
3      B  200      20
4      C  408      NA

método de selección()

El método select() se usa para extraer las columnas requeridas como una tabla especificando los nombres de las columnas requeridas en el método select(). La sintaxis del método select() se menciona a continuación:

seleccionar (nombre del marco de datos, col1, col2, …)

Ejemplo:

Aquí, en el siguiente código, recuperamos los datos de la columna del jugador, los wickets solo usando el método select().

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, NA, 5))
  
# fetch required column data
select(stats, player,wickets)

Producción

  player wickets
1      A      17
2      B      20
3      C      NA
4      D       5

método renombrar()

La función rename() se usa para cambiar los nombres de las columnas. Esto se puede hacer con la siguiente sintaxis:

cambiar el nombre (nombre del marco de datos, nombre nuevo = nombre antiguo)

Ejemplo: 

En este ejemplo, cambiamos el nombre de la columna «carreras» a «carreras_puntuadas» en el marco de datos de estadísticas.

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, NA, 5))
  
# renaming the column
rename(stats, runs_scored=runs)

Producción

  player runs_scored wickets
1      A         100      17
2      B         200      20
3      C         408      NA
4      D          19       5

Métodos mutar() y transmutar()

Estos métodos se utilizan para crear nuevas variables. La función mutate() crea nuevas variables sin descartar las antiguas, pero la función transmutar() elimina las variables antiguas y crea nuevas variables. La sintaxis de ambos métodos se menciona a continuación:

mutar (nombre del marco de datos, nueva variable = fórmula)

transmutar (nombre del marco de datos, nueva variable = fórmula)

Ejemplo:

En este ejemplo, creamos una nueva columna avg usando los métodos mutate() y transmute().

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, 7, 5))
  
# add new column avg
mutate(stats, avg=runs/4)
  
# drop all and create a new column
transmute(stats, avg=runs/4)

Producción

  player runs wickets    avg
1      A  100      17  25.00
2      B  200      20  50.00
3      C  408       7 102.00
4      D   19       5   4.75
     avg
1  25.00
2  50.00
3 102.00
4   4.75

Aquí, las funciones mutate() agregan una nueva columna para el marco de datos existente sin eliminar las antiguas, mientras que la función transmutar() creó una nueva variable pero eliminó todas las columnas antiguas.

método resumir()

Usando el método de resumen, podemos resumir los datos en el marco de datos usando funciones agregadas como sum(), mean(), etc. La sintaxis del método de resumen() se especifica a continuación:

resume (nombre del marco de datos, función_agregada (nombre de la columna))

Ejemplo:

 En el siguiente código, presentamos los datos resumidos presentes en la columna de ejecuciones utilizando el método resume().

R

# import dplyr package
library(dplyr)
  
# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                runs=c(100, 200, 408, 19),
                wickets=c(17, 20, 7, 5))
  
# summarize method
summarize(stats, sum(runs), mean(runs))

Producción

  sum(runs) mean(runs)
1       727     181.75

Publicación traducida automáticamente

Artículo escrito por akhilvasabhaktula03 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *