En este artículo, vamos a eliminar filas duplicadas en el lenguaje de programación R usando el paquete Dplyr.
Método 1: distinto()
Esta función se usa para eliminar las filas duplicadas en el marco de datos y obtener los datos únicos
Sintaxis:
distinto (marco de datos)
También podemos eliminar filas duplicadas en función de las múltiples columnas/variables en el marco de datos
Sintaxis:
distinto (marco de datos, columna 1, columna 2,., columna n)
Conjunto de datos en uso:
Ejemplo 1: programa R para eliminar filas duplicadas del marco de datos
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # remove duplicate rows print(distinct(data1))
Producción:
Ejemplo 2: eliminar filas duplicadas en función de una sola columna
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # remove duplicate rows based on name # column print(distinct(data1,name))
Producción:
Ejemplo 3: eliminar filas duplicadas en función de varias columnas
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # remove duplicate rows based on # name and address columns print(distinct(data1,address,name))
Producción:
Método 2: usando la función duplicada()
La función duplicada() devolverá las filas duplicadas y la función !duplicada() devolverá las filas únicas.
Sintaxis:
marco de datos [! duplicado (marco de datos $nombre_columna), ]
Aquí, el marco de datos es el marco de datos de entrada y column_name es la columna en el marco de datos, según esa columna, se eliminan los datos duplicados.
Ejemplo: programa R para eliminar datos duplicados en función de una columna en particular
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # remove duplicate rows using duplicated() # function based on name column print(data1[!duplicated(data1$name), ] ) print("=====================") # remove duplicate rows using duplicated() # function based on id column print(data1[!duplicated(data1$id), ] ) print("=====================") # remove duplicate rows using duplicated() # function based on address column print(data1[!duplicated(data1$address), ] ) print("=====================")
Producción:
Método 3: usar la función única()
La función unique() se usa para eliminar filas duplicadas al devolver los datos únicos
Sintaxis:
único (marco de datos)
Para obtener datos únicos de la columna, pase el nombre de la columna junto con el nombre del marco de datos,
Sintaxis:
único (marco de datos $nombre_columna)
Donde dataframe es el dataframe de entrada y column_name es la columna en el dataframe.
Ejemplo 1: programa R para eliminar duplicados usando la función unique()
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # get unique data from the dataframe print(unique(data1))
Producción:
Ejemplo 2: programa R para eliminar duplicados en una columna en particular
R
# load the package library(dplyr) # create dataframe with three columns # named id,name and address data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2), name=c('sravan','ojaswi','bobby', 'gnanesh','rohith','pinkey', 'dhanush','sravan','gnanesh', 'ojaswi'), address=c('hyd','hyd','ponnur','tenali', 'vijayawada','vijayawada','guntur', 'hyd','tenali','hyd')) # get unique data from the dataframe # in id column print(unique(data1$id)) # get unique data from the dataframe # in name column print(unique(data1$name)) # get unique data from the dataframe # in address column print(unique(data1$address))
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA