Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
Una parte importante del análisis de datos es analizar valores duplicados y eliminarlos. El método duplicado() de Pandas ayuda a analizar solo valores duplicados. Devuelve una serie booleana que es verdadera solo para elementos únicos.
Sintaxis:
DataFrame.duplicated(subset=None, keep='first')
Parámetros:
subconjunto: Toma una columna o lista de etiquetas de columna. Su valor predeterminado es ninguno. Después de pasar columnas, las considerará solo para duplicados.
keep: controla cómo considerar el valor duplicado. Solo tiene tres valores distintos y el valor predeterminado es ‘primero’.
–> Si es ‘primero’, considera el primer valor como único y el resto de los mismos valores como duplicados.
–> Si es ‘último’, considera el último valor como único y el resto de los mismos valores como duplicados.
-> Si es falso, considera todos los mismos valores como duplicados.
Para descargar el archivo CSV utilizado, haga clic aquí.
Ejemplo n.º 1: devolución de una serie booleana
En el siguiente ejemplo, se devuelve una serie booleana sobre la base de valores duplicados en la columna Nombre.
Python
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("employees.csv") # sorting by first name data.sort_values("First Name", inplace = True) # making a bool series bool_series = data["First Name"].duplicated() # displaying data data.head() # display data data[bool_series]
Salida:
como se muestra en la imagen de salida, dado que el parámetro de mantenimiento predeterminado es «primero», por lo tanto, cada vez que se produce el nombre, el primero se considera Único y res Duplicado.
Ejemplo n.º 2: eliminación de duplicados
En este ejemplo, el parámetro de mantenimiento se establece en Falso, de modo que solo se toman valores únicos y los valores duplicados se eliminan de los datos.
Python
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("employees.csv") # sorting by first name data.sort_values("First Name", inplace = True) # making a bool series bool_series = data["First Name"].duplicated(keep = False) # bool series bool_series # passing NOT of bool series to see unique values only data = data[~bool_series] # displaying data data.info() data
Salida:
dado que el método duplicado() devuelve falso para duplicados, el NOT de la serie se toma para ver el valor único en el marco de datos.
Publicación traducida automáticamente
Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA