Eliminar filas duplicadas en R usando Dplyr

En este artículo, vamos a eliminar filas duplicadas en el lenguaje de programación R usando el paquete Dplyr.

Método 1: distinto()

Esta función se usa para eliminar las filas duplicadas en el marco de datos y obtener los datos únicos

Sintaxis:

distinto (marco de datos)

También podemos eliminar filas duplicadas en función de las múltiples columnas/variables en el marco de datos

Sintaxis:

distinto (marco de datos, columna 1, columna 2,., columna n)

Conjunto de datos en uso:

Ejemplo 1: programa R para eliminar filas duplicadas del marco de datos

R

# load the package
library(dplyr)
  
# create dataframe with three columns
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# remove duplicate rows
print(distinct(data1))

Producción:

Ejemplo 2: eliminar filas duplicadas en función de una sola columna

R

# load the package
library(dplyr)
  
# create dataframe with three columns 
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# remove duplicate rows based on name 
# column
print(distinct(data1,name))

Producción:

Ejemplo 3: eliminar filas duplicadas en función de varias columnas

R

# load the package
library(dplyr)
  
# create dataframe with three columns 
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# remove duplicate rows based on 
# name and address columns
print(distinct(data1,address,name))

Producción:

Método 2: usando la función duplicada() 

La función duplicada() devolverá las filas duplicadas y la función !duplicada() devolverá las filas únicas.

Sintaxis:

marco de datos [! duplicado (marco de datos $nombre_columna), ]

Aquí, el marco de datos es el marco de datos de entrada y column_name es la columna en el marco de datos, según esa columna, se eliminan los datos duplicados.

Ejemplo: programa R para eliminar datos duplicados en función de una columna en particular

R

# load the package
library(dplyr)
  
# create dataframe with three columns
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# remove duplicate rows using duplicated()
# function based on name column
print(data1[!duplicated(data1$name), ] )
print("=====================")
  
# remove duplicate rows using duplicated()
# function based on id column
print(data1[!duplicated(data1$id), ] )
print("=====================")
  
# remove duplicate rows using duplicated()
# function based on address column
print(data1[!duplicated(data1$address), ] )
print("=====================")

Producción:

Método 3: usar la función única()

La función unique() se usa para eliminar filas duplicadas al devolver los datos únicos

Sintaxis:

único (marco de datos)

Para obtener datos únicos de la columna, pase el nombre de la columna junto con el nombre del marco de datos,

Sintaxis:

único (marco de datos $nombre_columna)

Donde dataframe es el dataframe de entrada y column_name es la columna en el dataframe.

Ejemplo 1: programa R para eliminar duplicados usando la función unique()

R

# load the package
library(dplyr)
  
# create dataframe with three columns
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# get unique data from the dataframe
print(unique(data1))

Producción:

Ejemplo 2: programa R para eliminar duplicados en una columna en particular

R

# load the package
library(dplyr)
  
# create dataframe with three columns
# named id,name and address
data1=data.frame(id=c(1,2,3,4,5,6,7,1,4,2),
                   
                 name=c('sravan','ojaswi','bobby',
                        'gnanesh','rohith','pinkey',
                        'dhanush','sravan','gnanesh',
                        'ojaswi'),
                   
                 address=c('hyd','hyd','ponnur','tenali',
                           'vijayawada','vijayawada','guntur',
                           'hyd','tenali','hyd'))
  
# get unique data from the dataframe
# in id column
print(unique(data1$id))
  
# get unique data from the dataframe 
# in name  column
print(unique(data1$name))
  
# get unique data from the dataframe 
# in address column
print(unique(data1$address))

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *