Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
La mayoría de los datos para el análisis están disponibles en forma de formato tabular como Excel y archivos separados por comas (CSV). Para acceder a los datos del archivo csv, necesitamos una función read_csv() que recupera datos en forma de marco de datos. Antes de usar esta función, debemos importar la biblioteca pandas.
Importación de la biblioteca Pandas:
import pandas as pd
La función read_csv() se utiliza para recuperar datos del archivo csv. La sintaxis del método read_csv() es:
pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
Código #1 Recuperando datos del archivo csv
PYTHON3
# Import pandas import pandas as pd # reading csv file pd.read_csv("filename.csv")
Aquí está la lista de parámetros con sus valores predeterminados . No todos son muy importantes, pero recordarlos realmente ahorra tiempo al realizar algunas funciones por su cuenta. Uno puede ver los parámetros de cualquier función presionando shift + tab en jupyter notebook. Los útiles se dan a continuación con su uso:
- filepath_or_buffer: es la ubicación del archivo que se recuperará con esta función. Acepta cualquier ruta de string o URL del archivo.
- sep: significa separador, el valor predeterminado es ‘,’ como en csv (valores separados por comas).
- encabezado: acepta int, lista de int, números de fila para usar como nombres de columna y comienzo de los datos. Si no se pasan nombres, es decir, header=None, entonces, mostrará la primera columna como 0, la segunda como 1, y así sucesivamente.
- usecols: se utiliza para recuperar solo las columnas seleccionadas del archivo csv.
- nrows: Significa el número de filas que se mostrarán del conjunto de datos.
- index_col: si es Ninguno, no se muestran números de índice junto con los registros.
- squeeze: si es verdadero y solo se pasa una columna, devuelve la serie pandas.
- skiprows: salta las filas pasadas en el nuevo marco de datos.
- nombres: Permite recuperar columnas con nuevos nombres.
Parámetro | Usar |
---|---|
ruta_archivo_o_búfer | URL o ubicación del directorio del archivo |
sep | Significa separador, el valor predeterminado es ‘,’ como en csv (valores separados por comas) |
index_col |
Hace que la columna pasada sea un índice en lugar de 0, 1, 2, 3…r
|
encabezamiento |
Hace pasada la fila/s[int/int list] como encabezado
|
use_cols | Solo usa la columna pasada [lista de strings] para hacer un marco de datos |
estrujar | Si es verdadero y solo se pasa una columna, devuelve la serie pandas |
salteadores | Omite las filas pasadas en el nuevo marco de datos |
Consulte el enlace al conjunto de datos utilizado desde aquí .
Código #2:
PYTHON3
# importing Pandas library import pandas as pd pd.read_csv(filepath_or_buffer = "pokemon.csv") # makes the passed rows header pd.read_csv("pokemon.csv", header =[1, 2]) # make the passed column as index instead of 0, 1, 2, 3.... pd.read_csv("pokemon.csv", index_col ='Type') # uses passed cols only for data frame pd.read_csv("pokemon.csv", usecols =["Type"]) # returns pandas series if there is only one column pd.read_csv("pokemon.csv", usecols =["Type"], squeeze = True) # skips the passed rows in new series pd.read_csv("pokemon.csv", skiprows = [1, 2, 3, 4])
Publicación traducida automáticamente
Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA