Eliminar duplicados de un marco de datos en PySpark

En este artículo, eliminaremos los datos duplicados del marco de datos usando pyspark en Python

Antes de comenzar vamos a crear Dataframe para demostración:

Python3

# importing module
import pyspark
 
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
 
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
 
# list  of employee data
data =[["1","sravan","company 1"],
       ["2","ojaswi","company 1"],
       ["3","rohith","company 2"],
       ["4","sridevi","company 1"],
       ["1","sravan","company 1"],
       ["4","sridevi","company 1"]]
 
# specify column names
columns = ['Employee ID','Employee NAME','Company']
 
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
 
print('Actual data in dataframe')
dataframe.show()

Producción:

Método 1: usar el método distinto()

Eliminará las filas duplicadas en el marco de datos

Sintaxis: dataframe.distinct()

Donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Ejemplo 1: programa de Python para eliminar datos duplicados usando la función distintiva()

Python3

print('distinct data after dropping duplicate rows')
 
# display distinct data
dataframe.distinct().show()

Producción:

Ejemplo 2: programa Python para seleccionar datos distintos en solo dos columnas.

Podemos usar la función de selección() junto con la función distinta para obtener valores distintos de columnas particulares

Sintaxis : dataframe.select([‘columna 1′,’columna n’]).distinct().show()

Python3

# display distinct data in
# Employee ID and Employee NAME
dataframe.select(['Employee ID',
                  'Employee NAME']).distinct().show()

Producción:

Método 2: Usar el método dropDuplicates()

Sintaxis: dataframe.dropDuplicates()

donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Ejemplo 1: programa Python para eliminar datos duplicados de la tabla de empleados.

Python3

# remove duplicate data
# using dropDuplicates()function
dataframe.dropDuplicates().show()

Producción:

Ejemplo 2: programa de Python para eliminar valores duplicados en columnas específicas

Python3

# remove duplicate data
# using dropDuplicates()function
# in two columns
dataframe.select(['Employee ID',
                  'Employee NAME']).dropDuplicates().show()

Producción:

Publicación traducida automáticamente

Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *