Python | Leer csv usando pandas.read_csv()

Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.

La mayoría de los datos para el análisis están disponibles en forma de formato tabular como Excel y archivos separados por comas (CSV). Para acceder a los datos del archivo csv, necesitamos una función read_csv() que recupera datos en forma de marco de datos. Antes de usar esta función, debemos importar la biblioteca pandas.
Importación de la biblioteca Pandas: 
 

import pandas as pd

  
 La función read_csv() se utiliza para recuperar datos del archivo csv. La sintaxis del método read_csv() es:

pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, 
             usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, 
             dtype=None, engine=None, converters=None, true_values=None, false_values=None, 
             skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, 
             na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, 
             keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', 
             thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, 
             encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, 
             doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) 
             

Código #1  Recuperando datos del archivo csv

PYTHON3

# Import pandas
import pandas as pd
 
# reading csv file
pd.read_csv("filename.csv")

Aquí está la lista de parámetros con sus valores predeterminados . No todos son muy importantes, pero recordarlos realmente ahorra tiempo al realizar algunas funciones por su cuenta. Uno puede ver los parámetros de cualquier función presionando shift + tab en jupyter notebook. Los útiles se dan a continuación con su uso:
 
 

  • filepath_or_buffer: es la ubicación del archivo que se recuperará con esta función. Acepta cualquier ruta de string o URL del archivo.
  • sep: significa separador, el valor predeterminado es ‘,’ como en csv (valores separados por comas).
  • encabezado: acepta int, lista de int, números de fila para usar como nombres de columna y comienzo de los datos. Si no se pasan nombres, es decir, header=None, entonces, mostrará la primera columna como 0, la segunda como 1, y así sucesivamente.
  • usecols: se utiliza para recuperar solo las columnas seleccionadas del archivo csv.
  • nrows: Significa el número de filas que se mostrarán del conjunto de datos.
  • index_col: si es Ninguno, no se muestran números de índice junto con los registros.  
  • squeeze: si es verdadero y solo se pasa una columna, devuelve la serie pandas.
  • skiprows: salta las filas pasadas en el nuevo marco de datos.
  • nombres: Permite recuperar columnas con nuevos nombres.
     
Parámetro Usar
ruta_archivo_o_búfer URL o ubicación del directorio del archivo
sep Significa separador, el valor predeterminado es ‘,’ como en csv (valores separados por comas)
index_col

Hace que la columna pasada sea un índice en lugar de 0, 1, 2, 3…r 
 

 

encabezamiento

Hace pasada la fila/s[int/int list] como encabezado
 

 

use_cols Solo usa la columna pasada [lista de strings] para hacer un marco de datos
estrujar Si es verdadero y solo se pasa una columna, devuelve la serie pandas
salteadores Omite las filas pasadas en el nuevo marco de datos

Consulte el enlace al conjunto de datos utilizado desde aquí .
Código #2:
 

PYTHON3

# importing Pandas library
import pandas as pd
 
pd.read_csv(filepath_or_buffer = "pokemon.csv")
 
# makes the passed rows header
pd.read_csv("pokemon.csv", header =[1, 2])
 
# make the passed column as index instead of 0, 1, 2, 3....
pd.read_csv("pokemon.csv", index_col ='Type')
 
# uses passed cols only for data frame
pd.read_csv("pokemon.csv", usecols =["Type"])
 
# returns pandas series if there is only one column
pd.read_csv("pokemon.csv", usecols =["Type"], squeeze = True)
                               
# skips the passed rows in new series
pd.read_csv("pokemon.csv", skiprows = [1, 2, 3, 4])

Publicación traducida automáticamente

Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *