En este artículo, discutiremos cómo eliminar filas duplicadas en el marco de datos en el lenguaje de programación R.
Conjunto de datos en uso:
Método 1: Usando distinguido()
Este método está disponible en el paquete dplyr que se usa para obtener las filas únicas del marco de datos. Podemos eliminar filas de todo lo que son duplicados y también podemos eliminar filas duplicadas en una columna en particular.
Sintaxis :
distinto (marco de datos)
distinto (marco de datos, columna 1, columna 2,., columna n)
Ejemplo: programa R para eliminar filas duplicadas usando la función distintiva()
R
# load the package library(dplyr) # create dataframe data=data.frame(names=c("manoj","bobby","sravan", "deepu","manoj","bobby") , id=c(1,2,3,4,1,2), subjects=c("java","python","php", "html","java","python")) # remove all duplicate rows print(distinct(data)) # remove duplicate rows in subjects column print(distinct(data,subjects)) # remove duplicate rows in namescolumn print(distinct(data,names))
Producción:
Método 2: Usar duplicado()
Esta función devolverá los duplicados del marco de datos. Para obtener las filas únicas, ¡tenemos que especificar! operador antes de este método
Sintaxis:
data[!duplicated(data$column_name), ]
dónde,
- data es el marco de datos de entrada
- column_name es la columna donde se eliminan los duplicados en esta columna
Ejemplo: programa R para eliminar filas duplicadas usando la función duplicada()
R
# create dataframe data=data.frame(names=c("manoj","bobby","sravan", "deepu","manoj","bobby") , id=c(1,2,3,4,1,2), subjects=c("java","python","php", "html","java","python")) # remove duplicate rows in subjects column print(data[!duplicated(data$subjects), ]) # remove duplicate rows in names column print(data[!duplicated(data$names), ]) # remove duplicate rows in id column print(data[!duplicated(data$id), ])
Producción:
Método 3: Usar único()
Esto obtendrá las filas únicas del marco de datos.
Sintaxis:
unique(dataframe)
Para entrar en una columna en particular
Sintaxis:
unique(dataframe$column_name
Ejemplo : programa R para eliminar filas duplicadas usando la función única()
R
# create dataframe data=data.frame(names=c("manoj","bobby","sravan", "deepu","manoj","bobby") , id=c(1,2,3,4,1,2), subjects=c("java","python","php", "html","java","python")) # remove duplicate rows in subjects column print(unique(data$subjects)) # remove duplicate rows in names column print(unique(data$names)) # remove duplicate rows in id column print(unique(data$id))
Producción:
[1] "java" "python" "php" "html" [1] "manoj" "bobby" "sravan" "deepu" [1] 1 2 3 4
Ejemplo: programa R para aplicar la función única() en todo el marco de datos
R
# create dataframe data=data.frame(names=c("manoj","bobby","sravan", "deepu","manoj","bobby") , id=c(1,2,3,4,1,2), subjects=c("java","python","php", "html","java","python")) # remove duplicate rows in entire dataframe print(unique(data))
Producción:
Publicación traducida automáticamente
Artículo escrito por manojkumarreddymallidi y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA