¿Cómo fusionar dos archivos csv por columna específica usando Pandas en Python?

En este artículo, vamos a discutir cómo fusionar dos archivos CSV. Hay una función en la biblioteca de pandas pandas.merge() . Fusionar no significa nada más que combinar dos conjuntos de datos en uno basado en atributos o columnas comunes.

Sintaxis: pandas.merge()

Parámetros:

  • data1, data2: marcos de datos utilizados para la fusión.
  • cómo: {‘izquierda’, ‘derecha’, ‘exterior’, ‘interior’}, predeterminado ‘interior’
  • en: etiqueta o lista

Devoluciones :

Hay 4 tipos de fusión.

  • Interno
  • Izquierda
  • Derecha
  • Exterior

Vamos a utilizar los dos archivos csv siguientes, es decir , préstamo.csv y prestatario.csv para realizar todas las operaciones:

Unir internamente

Al configurar how=’inner ‘, combinará ambos marcos de datos en función de la columna especificada y luego devolverá un nuevo marco de datos que contiene solo aquellas filas que tienen un valor coincidente en ambos marcos de datos originales.

Código:

Python3

import pandas as pd
  
# reading two csv files
data1 = pd.read_csv('datasets/loan.csv')
data2 = pd.read_csv('datasets/borrower.csv')
  
# using merge function by setting how='inner'
output1 = pd.merge(data1, data2, 
                   on='LOAN_NO', 
                   how='inner')
  
# displaying result
print(output1)

Producción:

Izquierda combinación externa

Al configurar how=’left’ , combinará ambos marcos de datos en función de la columna especificada y luego devolverá un nuevo marco de datos que contiene todas las filas del marco de datos izquierdo, incluidas aquellas filas que no tienen valores en el marco de datos derecho y establecerá el valor de la columna del marco de datos derecho en NAN. 

Código:

Python3

import pandas as pd
  
# reading csv files
data1 = pd.read_csv('datasets/loan.csv')
data2 = pd.read_csv('datasets/borrower.csv')
  
# using merge function by setting how='left'
output2 = pd.merge(data1, data2, 
                   on='LOAN_NO', 
                   how='left')
  
# displaying result
print(output2)

Producción:

Unión exterior derecha

Al configurar how=’right’, combinará ambos marcos de datos en función de la columna especificada y luego devolverá un nuevo marco de datos que contiene todas las filas del marco de datos derecho, incluidas aquellas filas que no tienen valores en el marco de datos izquierdo y establecerá el valor de la columna del marco de datos izquierdo en NAN. 

Código:

Python3

import pandas as pd
  
# reading csv files
data1 = pd.read_csv('datasets/loan.csv')
data2 = pd.read_csv('datasets/borrower.csv')
  
# using merge function by setting how='right'
output3 = pd.merge(data1, data2,
                   on='LOAN_NO',
                   how='right')
  
# displaying result
print(output3)

Producción:

Unión exterior completa

Al configurar how=’right’ , combinará ambos marcos de datos en función de la columna especificada y luego devolverá un nuevo marco de datos que contiene filas de ambos marcos de datos y establecerá el valor NAN para aquellos en los que faltan datos en uno de los marcos de datos.

Código:

Python3

import pandas as pd
  
# reading csv files
data1 = pd.read_csv('datasets/loan.csv')
data2 = pd.read_csv('datasets/borrower.csv')
  
# using merge function by setting how='outer'
output4 = pd.merge(data1, data2, 
                   on='LOAN_NO', 
                   how='outer')
  
# displaying result
print(output4)

Producción:

Publicación traducida automáticamente

Artículo escrito por patildhanu4111999 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *