¿Cómo leer un archivo CSV en un Dataframe con delimitador personalizado en Pandas?

Python es un buen lenguaje para realizar análisis de datos debido al increíble ecosistema de paquetes de Python centrados en datos. El paquete pandas es uno de ellos y facilita mucho la importación y el análisis de datos.
Aquí, discutiremos cómo cargar un archivo csv en un marco de datos. Se hace usando un método pandas.read_csv() . Tenemos que importar la biblioteca de pandas para usar este método.
 

Sintaxis:pd.read_csv(filepath_or_buffer, sep=’, ‘, delimitador=Ninguno, encabezado=’inferir’, nombres=Ninguno, index_col=Ninguno, usecols=Ninguno, squeeze=False, prefix=Ninguno, mangle_dupe_cols=True, dtype=Ninguno, motor=Ninguno, convertidores=Ninguno, valores_verdaderos=Ninguno, valores_falsos=Ninguno, skipinitialspace=False, skiprows=Ninguno, nrows=Ninguno, na_values=Ninguno, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates= Falso, infer_datetime_format=False, keep_date_col=False, date_parser=Ninguno, dayfirst=False, iterator=False, chunksize=Ninguno,pression=’infer’, miles=Ninguno, decimal=b’.’, lineterminator=Ninguno, quotechar=’ ”’, comillas=0, escapechar=Ninguna, comentario=Ninguna, codificación=Ninguna, dialecto=Ninguna, tupleize_cols=Ninguna, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True , memory_map=Falso,float_precision=Ninguno) 
 

Algunos parámetros útiles se dan a continuación:
 

Parámetro Usar
ruta_archivo_o_búfer Ubicación URL o directorio del archivo
sep Significa separador, el valor predeterminado es ‘,’ como en csv (valores separados por comas)
index_col Este parámetro se usa para hacer que la columna pasada sea un índice en lugar de 0, 1, 2, 3…r
encabezamiento Este parámetro se usa para pasar la fila/s[int/int list] como encabezado
use_cols Este parámetro solo usa la columna pasada [lista de strings] para crear un marco de datos
estrujar Si es Verdadero y solo se pasa una columna, devuelve la serie pandas
salteadores Este parámetro se usa para omitir las filas pasadas en el nuevo marco de datos
saltarín Este parámetro se usa para omitir Número de líneas al final del archivo

Este método usa la coma ‘,’ como delimitador predeterminado, pero también podemos usar un delimitador personalizado o una expresión regular como separador.
Para descargar los archivos csv, haga clic aquí
. Ejemplo 1: Uso del método read_csv() con un separador predeterminado, es decir, coma (,)
 

Python3

# Importing pandas library
import pandas as pd
 
# Using the function to load
# the data of example.csv
# into a Dataframe df
df = pd.read_csv('example1.csv')
 
# Print the Dataframe
df

Producción: 
 

csv file with comma

Ejemplo 2: Uso del método read_csv() con ‘_’ como delimitador personalizado.
 

Python3

# Importing pandas library
import pandas as pd
 
# Load the data of example.csv
# with '_' as custom delimiter
# into a Dataframe df
df = pd.read_csv('example2.csv',
                   sep = '_',
                   engine = 'python')
 
# Print the Dataframe
df

Producción: 
 

csv file with underscore

Nota: al proporcionar un especificador personalizado, debemos especificar engine=’python’; de lo contrario, podemos recibir una advertencia como la que se muestra a continuación: 
 

pandas engine warning

Ejemplo 3: Uso del método read_csv() con tabulador como delimitador personalizado.
 

Python3

# Importing pandas library
import pandas as pd
 
# Load the data of example.csv
# with tab as custom delimiter
# into a Dataframe df
df = pd.read_csv('example3.csv',
                   sep = '\t',
                   engine = 'python')
 
# Print the Dataframe
df

Producción: 
 

csv file with underscore

Ejemplo 4: Uso del método read_csv() con una expresión regular como delimitador personalizado.
Supongamos que tenemos un archivo csv con varios tipos de delimitadores, como se indica a continuación.
 

totalbill_tip, sexo:fumador, día_hora, tamaño 
16,99, 1,01:Mujer|No, Dom, Cena, 2 
10,34, 1,66, Hombre, No|Dom:Cena, 3 
21,01:3,5_Hombre, No:Dom, Cena, 3 
23,68, 3,31 , Hombre|No, Dom_Cena, 2 
24,59:3,61, Mujer_No, Dom, Cena, 4 
25,29, 4,71|Hombre, No:Dom, Cena, 4
 

Para cargar dicho archivo en un marco de datos, usamos una expresión regular como separador.
 

Python3

# Importing pandas library
import pandas as pd
 
# Load the data of example.csv
# with regular expression as
# custom delimiter into a
# Dataframe df
df = pd.read_csv('example4.csv',
                   sep = '[:, |_]',
                   engine = 'python')
 
# Print the Dataframe
df

Producción: 
 

csv file with regula expression

Publicación traducida automáticamente

Artículo escrito por ankthon y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *