En este artículo, analicemos la manipulación de datos en el lenguaje de programación R.
Para manipular los datos, R proporciona una biblioteca llamada dplyr que consta de muchos métodos integrados para manipular los datos. Entonces, para usar la función de manipulación de datos, primero debe importar el paquete dplyr usando la línea de código de la biblioteca (dplyr) . A continuación se muestra la lista de algunas funciones de manipulación de datos presentes en el paquete dplyr.
Nombre de la función |
Descripción |
---|---|
filtrar() |
Produce un subconjunto de un marco de datos. |
distinto() |
Elimina filas duplicadas en un marco de datos |
arreglar() |
Reordenar las filas de un marco de datos |
Seleccione() |
Produce datos en las columnas requeridas de un marco de datos |
rebautizar() |
Renombra los nombres de las variables |
mudar() |
Crea nuevas variables sin descartar las antiguas. |
transmutar() |
Crea nuevas variables eliminando las antiguas. |
resumir() |
Proporciona datos resumidos como Promedio, Suma, etc. |
método de filtro()
La función filter() se usa para producir el subconjunto de datos que satisface la condición especificada en el método filter(). En la condición, podemos usar operadores condicionales, operadores lógicos, valores NA, operadores de rango, etc. para filtrar datos. La sintaxis de la función filter() se proporciona a continuación:
filtro (nombre del marco de datos, condición)
Ejemplo:
En el siguiente código, usamos la función de filtro() para obtener los datos de los jugadores que anotaron más de 100 carreras desde el marco de datos de «estadísticas».
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, NA, 5)) # fetch players who scored more # than 100 runs filter(stats, runs>100)
Producción
player runs wickets 1 B 200 20 2 C 408 NA
método distinto()
El método distinto() elimina las filas duplicadas del marco de datos o en función de las columnas especificadas. La sintaxis del método distinto() se proporciona a continuación:
distinto (nombre del marco de datos, col1, col2, .., .keep_all = TRUE)
Ejemplo:
Aquí, en este ejemplo, usamos el método distinto() para eliminar las filas duplicadas del marco de datos y también eliminar los duplicados en función de una columna específica.
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D', 'A', 'A'), runs=c(100, 200, 408, 19, 56, 100), wickets=c(17, 20, NA, 5, 2, 17)) # removes duplicate rows distinct(stats) #remove duplicates based on a column distinct(stats, player, .keep_all = TRUE)
Producción
player runs wickets 1 A 100 17 2 B 200 20 3 C 408 NA 4 D 19 5 5 A 56 2 player runs wickets 1 A 100 17 2 B 200 20 3 C 408 NA 4 D 19 5
método de arreglo()
En R, el método de arreglo() se usa para ordenar las filas en función de una columna específica. La sintaxis del método de arreglo() se especifica a continuación:
organizar (nombre del marco de datos, nombre de la columna)
Ejemplo:
En el siguiente código, ordenamos los datos en función de las ejecuciones de menor a mayor utilizando la función de arreglo().
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, NA, 5)) # ordered data based on runs arrange(stats, runs)
Producción
player runs wickets 1 D 19 5 2 A 100 17 3 B 200 20 4 C 408 NA
método de selección()
El método select() se usa para extraer las columnas requeridas como una tabla especificando los nombres de las columnas requeridas en el método select(). La sintaxis del método select() se menciona a continuación:
seleccionar (nombre del marco de datos, col1, col2, …)
Ejemplo:
Aquí, en el siguiente código, recuperamos los datos de la columna del jugador, los wickets solo usando el método select().
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, NA, 5)) # fetch required column data select(stats, player,wickets)
Producción
player wickets 1 A 17 2 B 20 3 C NA 4 D 5
método renombrar()
La función rename() se usa para cambiar los nombres de las columnas. Esto se puede hacer con la siguiente sintaxis:
cambiar el nombre (nombre del marco de datos, nombre nuevo = nombre antiguo)
Ejemplo:
En este ejemplo, cambiamos el nombre de la columna «carreras» a «carreras_puntuadas» en el marco de datos de estadísticas.
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, NA, 5)) # renaming the column rename(stats, runs_scored=runs)
Producción
player runs_scored wickets 1 A 100 17 2 B 200 20 3 C 408 NA 4 D 19 5
Métodos mutar() y transmutar()
Estos métodos se utilizan para crear nuevas variables. La función mutate() crea nuevas variables sin descartar las antiguas, pero la función transmutar() elimina las variables antiguas y crea nuevas variables. La sintaxis de ambos métodos se menciona a continuación:
mutar (nombre del marco de datos, nueva variable = fórmula)
transmutar (nombre del marco de datos, nueva variable = fórmula)
Ejemplo:
En este ejemplo, creamos una nueva columna avg usando los métodos mutate() y transmute().
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, 7, 5)) # add new column avg mutate(stats, avg=runs/4) # drop all and create a new column transmute(stats, avg=runs/4)
Producción
player runs wickets avg 1 A 100 17 25.00 2 B 200 20 50.00 3 C 408 7 102.00 4 D 19 5 4.75 avg 1 25.00 2 50.00 3 102.00 4 4.75
Aquí, las funciones mutate() agregan una nueva columna para el marco de datos existente sin eliminar las antiguas, mientras que la función transmutar() creó una nueva variable pero eliminó todas las columnas antiguas.
método resumir()
Usando el método de resumen, podemos resumir los datos en el marco de datos usando funciones agregadas como sum(), mean(), etc. La sintaxis del método de resumen() se especifica a continuación:
resume (nombre del marco de datos, función_agregada (nombre de la columna))
Ejemplo:
En el siguiente código, presentamos los datos resumidos presentes en la columna de ejecuciones utilizando el método resume().
R
# import dplyr package library(dplyr) # create a data frame stats <- data.frame(player=c('A', 'B', 'C', 'D'), runs=c(100, 200, 408, 19), wickets=c(17, 20, 7, 5)) # summarize method summarize(stats, sum(runs), mean(runs))
Producción
sum(runs) mean(runs) 1 727 181.75
Publicación traducida automáticamente
Artículo escrito por akhilvasabhaktula03 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA