¿Cómo eliminar filas duplicadas en R DataFrame?

En este artículo, discutiremos cómo eliminar filas duplicadas en el marco de datos en el lenguaje de programación R.

Conjunto de datos en uso:

Método 1: Usando distinguido()

Este método está disponible en el paquete dplyr que se usa para obtener las filas únicas del marco de datos. Podemos eliminar filas de todo lo que son duplicados y también podemos eliminar filas duplicadas en una columna en particular.

Sintaxis :

distinto (marco de datos)

distinto (marco de datos, columna 1, columna 2,., columna n)

Ejemplo: programa R para eliminar filas duplicadas usando la función distintiva()

R

# load the package
library(dplyr)
 
# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
                        "deepu","manoj","bobby") ,
                id=c(1,2,3,4,1,2),
                subjects=c("java","python","php",
                           "html","java","python"))
 
 
# remove all duplicate rows
print(distinct(data))
 
# remove  duplicate rows in subjects column
print(distinct(data,subjects))
 
# remove  duplicate rows in namescolumn
print(distinct(data,names))

Producción:

Método 2: Usar duplicado()

Esta función devolverá los duplicados del marco de datos. Para obtener las filas únicas, ¡tenemos que especificar! operador antes de este método

Sintaxis:

data[!duplicated(data$column_name), ]

dónde,

  • data es el marco de datos de entrada
  • column_name es la columna donde se eliminan los duplicados en esta columna

Ejemplo: programa R para eliminar filas duplicadas usando la función duplicada() 

R

# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
                        "deepu","manoj","bobby") ,
                id=c(1,2,3,4,1,2),
                subjects=c("java","python","php",
                           "html","java","python"))
 
 
# remove duplicate rows in subjects column
print(data[!duplicated(data$subjects), ])
 
# remove  duplicate rows in names column
print(data[!duplicated(data$names), ])
 
# remove  duplicate rows in  id column
print(data[!duplicated(data$id), ])

Producción:

Método 3: Usar único()

Esto obtendrá las filas únicas del marco de datos.

Sintaxis:

unique(dataframe)

Para entrar en una columna en particular 

Sintaxis:

unique(dataframe$column_name

Ejemplo : programa R para eliminar filas duplicadas usando la función única()

R

# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
                        "deepu","manoj","bobby") ,
                id=c(1,2,3,4,1,2),
                subjects=c("java","python","php",
                           "html","java","python"))
 
 
# remove duplicate rows in subjects column
print(unique(data$subjects))
 
# remove  duplicate rows in names column
print(unique(data$names))
 
# remove  duplicate rows in  id column
print(unique(data$id))

Producción:

[1] "java"   "python" "php"    "html"  
[1] "manoj"  "bobby"  "sravan" "deepu"  
[1] 1 2 3 4

Ejemplo: programa R para aplicar la función única() en todo el marco de datos

R

# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
                        "deepu","manoj","bobby") ,
                id=c(1,2,3,4,1,2),
                subjects=c("java","python","php",
                           "html","java","python"))
 
 
# remove duplicate rows in entire dataframe
print(unique(data))

Producción:

Publicación traducida automáticamente

Artículo escrito por manojkumarreddymallidi y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *