Python | Marco de datos de Pandas.duplicado()

Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
Una parte importante del análisis de datos es analizar valores duplicados y eliminarlos. El método duplicado() de Pandas ayuda a analizar solo valores duplicados. Devuelve una serie booleana que es verdadera solo para elementos únicos.
Sintaxis: 
 

DataFrame.duplicated(subset=None, keep='first')

Parámetros: 
 

subconjunto: Toma una columna o lista de etiquetas de columna. Su valor predeterminado es ninguno. Después de pasar columnas, las considerará solo para duplicados. 
keep: controla cómo considerar el valor duplicado. Solo tiene tres valores distintos y el valor predeterminado es ‘primero’. 
–> Si es ‘primero’, considera el primer valor como único y el resto de los mismos valores como duplicados. 
–> Si es ‘último’, considera el último valor como único y el resto de los mismos valores como duplicados. 
-> Si es falso, considera todos los mismos valores como duplicados. 
 

Para descargar el archivo CSV utilizado, haga clic aquí.
Ejemplo n.º 1: devolución de una serie booleana
En el siguiente ejemplo, se devuelve una serie booleana sobre la base de valores duplicados en la columna Nombre.
 

Python

# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated()
 
# displaying data
data.head()
 
# display data
data[bool_series]

Salida: 
como se muestra en la imagen de salida, dado que el parámetro de mantenimiento predeterminado es «primero», por lo tanto, cada vez que se produce el nombre, el primero se considera Único y res Duplicado.
 

 
Ejemplo n.º 2: eliminación de duplicados 
En este ejemplo, el parámetro de mantenimiento se establece en Falso, de modo que solo se toman valores únicos y los valores duplicados se eliminan de los datos.
 

Python

# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated(keep = False)
 
# bool series
bool_series
 
# passing NOT of bool series to see unique values only
data = data[~bool_series]
 
# displaying data
data.info()
data

Salida: 
dado que el método duplicado() devuelve falso para duplicados, el NOT de la serie se toma para ver el valor único en el marco de datos. 
 

Publicación traducida automáticamente

Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *