Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
El método Pandas where()
se usa para verificar un marco de datos para una o más condiciones y devolver el resultado en consecuencia. De forma predeterminada, las filas que no cumplen la condición se rellenan con el valor NaN.
Syntax:
DataFrame.where (cond, other=nan, inplace=False, axis=Ninguno, level=Ninguno, errores=’raise’, try_cast=False, raise_on_error=Ninguno)
Parameters:
cond: una o más condiciones para verificar el marco de datos.
otro: reemplaza las filas que no cumplen la condición con el objeto definido por el usuario, el valor predeterminado es NaN
en su lugar: valor booleano, realiza cambios en el marco de datos si es verdadero
eje: eje para verificar (fila o columnas)
Para obtener un enlace al archivo CSV utilizado, haga clic aquí.
Ejemplo #1: operación de condición única
En este ejemplo, se mostrarán las filas que tienen un nombre de equipo particular y el resto se reemplazará por NaN usando el método .where().
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("nba.csv") # sorting dataframe data.sort_values("Team", inplace = True) # making boolean series for a team name filter = data["Team"]=="Atlanta Hawks" # filtering data data.where(filter, inplace = True) # display data
Producción:
Como se muestra en la imagen de salida, cada fila que no tiene Team = Atlanta Hawks se reemplaza con NaN.
Ejemplo #2: Operaciones de múltiples condiciones
Los datos se filtran según el equipo y la edad. Solo se mostrarán las filas que tengan el nombre del equipo «Atlanta Hawks» y los jugadores que tengan más de 24 años.
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("nba.csv") # sorting dataframe data.sort_values("Team", inplace = True) # making boolean series for a team name filter1 = data["Team"]=="Atlanta Hawks" # making boolean series for age filter2 = data["Age"]>24 # filtering data on basis of both filters data.where(filter1 & filter2, inplace = True) # display data
Salida:
como se muestra en la imagen de salida, solo se muestran las filas que tienen el nombre del equipo «Atlanta Hawks» y los jugadores que tienen más de 24 años.
Publicación traducida automáticamente
Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA