Un conjunto de datos puede tener valores duplicados y para mantenerlo libre de redundancia y preciso, las filas duplicadas deben identificarse y eliminarse. En este artículo, veremos cómo identificar y eliminar datos duplicados en R. Primero, verificaremos si hay datos duplicados presentes en nuestros datos; en caso afirmativo, los eliminaremos.
Datos en uso:
Identificación de datos duplicados
Para la identificación, utilizaremos la función duplicada() que devuelve el recuento de filas duplicadas.
Sintaxis:
duplicado (marco de datos)
Enfoque :
- Crear marco de datos
- Pásalo a la función duplicada()
- Esta función devuelve las filas que están duplicadas en formas de valores booleanos
- Aplicar la función de suma para obtener el número
Ejemplo:
R
# Creating a sample data frame of students # and their marks in respective subjects. student_result=data.frame(name=c("Ram","Geeta","John","Paul", "Cassie","Geeta","Paul"), maths=c(7,8,8,9,10,8,9), science=c(5,7,6,8,9,7,8), history=c(7,7,7,7,7,7,7)) # Printing data student_result duplicated(student_result) sum(duplicated(student_result))
Producción:
> duplicado (student_result)
[1] FALSO FALSO FALSO FALSO FALSO VERDADERO VERDADERO
> sum(duplicado(student_result))
[1] 2
Eliminación de datos duplicados
Acercarse
- Crear marco de datos
- Seleccionar filas que son únicas
- Recuperar esas filas
- Mostrar resultado
Método 1: Usar único()
Usamos unique() para obtener filas que tienen valores únicos en nuestros datos.
Sintaxis:
único (marco de datos)
Ejemplo:
R
# Creating a sample data frame of students # and their marks in respective subjects. student_result=data.frame(name=c("Ram","Geeta","John","Paul", "Cassie","Geeta","Paul"), maths=c(7,8,8,9,10,8,9), science=c(5,7,6,8,9,7,8), history=c(7,7,7,7,7,7,7)) # Printing data student_result unique(student_result)
Producción:
Método 2: Usando distinguido()
El paquete «tidyverse» debe estar instalado y la biblioteca «dplyr» debe cargarse para usar distint(). Usamos distint() para obtener filas que tienen valores distintos en nuestros datos.
Sintaxis:
distinto (marco de datos, keepall)
Parámetro:
- marco de datos: datos en uso
- keepall: decide qué variables mantener
Ejemplo:
R
# Creating a sample data frame of students and # their marks in respective subjects. student_result=data.frame(name=c("Ram","Geeta","John","Paul", "Cassie","Geeta","Paul"), maths=c(7,8,8,9,10,8,9), science=c(5,7,6,8,9,7,8), history=c(7,7,7,7,7,7,7)) # Printing data student_result distinct(student_result)
Producción:
Ejemplo 2: Imprimir filas únicas en términos de columna matemática
R
# Creating a sample data frame of students and # their marks in respective subjects. student_result=data.frame(name=c("Ram","Geeta","John","Paul", "Cassie","Geeta","Paul"), maths=c(7,8,8,9,10,8,9), science=c(5,7,6,8,9,7,8), history=c(7,7,7,7,7,7,7)) # Printing data student_result distinct(student_result,maths,.keep_all = TRUE)
Producción:
Publicación traducida automáticamente
Artículo escrito por devangj9689 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA