Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
Pandas startswith()
es otro método más para buscar y filtrar datos de texto en Series o Data Frame. Este método es similar al método beginwith() de Python , pero tiene parámetros diferentes y solo funciona en objetos de Pandas. Por lo tanto, .str debe tener el prefijo cada vez antes de llamar a este método, para que el compilador sepa que es diferente de la función predeterminada.
Sintaxis: Series.str.startswith(pat, na=nan)
Parámetros:
pat: String a buscar. (No se aceptan expresiones regulares)
na: se utiliza para establecer lo que se debe mostrar si el valor de la serie es NULL.Tipo de retorno: serie booleana que es verdadera donde el valor tiene la string pasada al principio.
Para descargar el CSV utilizado en el código, haga clic aquí.
En los siguientes ejemplos, el marco de datos utilizado contiene datos de algunos jugadores de la NBA. La imagen del marco de datos antes de cualquier operación se adjunta a continuación.
Ejemplo n.º 1: devolución de series de Bool
En este ejemplo, la columna de la universidad se verifica si los elementos tienen «G» al comienzo de la string mediante la función str.startswith(). Se devuelve una serie booleana que es verdadera en la posición del índice donde la string tiene «G» al principio.
# importing pandas module import pandas as pd # reading csv file from url data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") # String to be searched in start of string search ="G" # boolean series returned data["College"].str.startswith(search)
Salida:
como se muestra en la imagen de salida, la serie bool tiene True en la posición de índice donde la columna College tenía una «G» al principio. También se puede comparar mirando la imagen del marco de datos original.
Ejemplo #2: Manejo de valores NULL
La parte más importante en el análisis de datos es el manejo de valores Null. Como se puede ver en la imagen de salida anterior, la serie booleana tiene NaN donde el valor en la columna College estaba vacío o NaN. Si esta serie booleana se pasa al marco de datos, dará un error. Por lo tanto, los valores de NaN deben manejarse utilizando el parámetro na . También se puede establecer en una string, pero dado que la serie bool se usa para pasar y devolver el valor respectivo, debe establecerse solo en un valor Bool.
En este ejemplo, naEl parámetro se establece en falso. Entonces, donde sea que la columna College tenga un valor Nulo, la serie Bool almacenará False en lugar de NaN. Después de eso, la serie se pasa nuevamente al marco de datos para mostrar solo valores verdaderos.
# importing pandas module import pandas as pd # reading csv file from url data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") # String to be searched in start of string search ="G" # boolean series returned with False at place of NaN bool_series = data["College"].str.startswith(search, na = False) # displaying filtered dataframe data[bool_series]
Salida:
como se muestra en la imagen de salida, el marco de datos tiene filas que tienen «G» al comienzo de la string en la columna College. Los valores de NaN no se muestran porque el parámetro na se estableció en False.
Publicación traducida automáticamente
Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA