Identificar y eliminar datos duplicados en R

Un conjunto de datos puede tener valores duplicados y para mantenerlo libre de redundancia y preciso, las filas duplicadas deben identificarse y eliminarse. En este artículo, veremos cómo identificar y eliminar datos duplicados en R. Primero, verificaremos si hay datos duplicados presentes en nuestros datos; en caso afirmativo, los eliminaremos.

Datos en uso:

Identificación de datos duplicados

Para la identificación, utilizaremos la función duplicada() que devuelve el recuento de filas duplicadas.

Sintaxis:

duplicado (marco de datos)

Enfoque :

  • Crear marco de datos
  • Pásalo a la función duplicada()
  • Esta función devuelve las filas que están duplicadas en formas de valores booleanos
  • Aplicar la función de suma para obtener el número

Ejemplo:

R

# Creating a sample data frame of students 
# and their marks in respective subjects.
student_result=data.frame(name=c("Ram","Geeta","John","Paul",
                                 "Cassie","Geeta","Paul"),
                          maths=c(7,8,8,9,10,8,9),
                          science=c(5,7,6,8,9,7,8),
                          history=c(7,7,7,7,7,7,7))
  
# Printing data
student_result
duplicated(student_result)
sum(duplicated(student_result))

Producción:

> duplicado (student_result)

[1] FALSO FALSO FALSO FALSO FALSO VERDADERO VERDADERO

> sum(duplicado(student_result))

[1] 2

Eliminación de datos duplicados

Acercarse

  • Crear marco de datos
  • Seleccionar filas que son únicas
  • Recuperar esas filas
  • Mostrar resultado

Método 1: Usar único()

Usamos unique() para obtener filas que tienen valores únicos en nuestros datos.

Sintaxis:

único (marco de datos)

Ejemplo:

R

# Creating a sample data frame of students 
# and their marks in respective subjects.
student_result=data.frame(name=c("Ram","Geeta","John","Paul",
                                 "Cassie","Geeta","Paul"),
                          maths=c(7,8,8,9,10,8,9),
                          science=c(5,7,6,8,9,7,8),
                          history=c(7,7,7,7,7,7,7))
  
# Printing data
student_result
unique(student_result)

Producción:

Método 2: Usando distinguido()

 El paquete «tidyverse» debe estar instalado y la biblioteca «dplyr» debe cargarse para usar distint(). Usamos distint() para obtener filas que tienen valores distintos en nuestros datos.

Sintaxis:

distinto (marco de datos, keepall)

Parámetro:

  • marco de datos: datos en uso
  • keepall: decide qué variables mantener

Ejemplo:

R

# Creating a sample data frame of students and 
# their marks in respective subjects.
student_result=data.frame(name=c("Ram","Geeta","John","Paul",
                                 "Cassie","Geeta","Paul"),
                          maths=c(7,8,8,9,10,8,9),
                          science=c(5,7,6,8,9,7,8),
                          history=c(7,7,7,7,7,7,7))
  
# Printing data
student_result
distinct(student_result)

Producción:

Ejemplo 2: Imprimir filas únicas en términos de columna matemática

R

# Creating a sample data frame of students and
# their marks in respective subjects.
student_result=data.frame(name=c("Ram","Geeta","John","Paul",
                                 "Cassie","Geeta","Paul"),
                          maths=c(7,8,8,9,10,8,9),
                          science=c(5,7,6,8,9,7,8),
                          history=c(7,7,7,7,7,7,7))
  
# Printing data
student_result
distinct(student_result,maths,.keep_all = TRUE)

Producción:

Publicación traducida automáticamente

Artículo escrito por devangj9689 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *