Eliminación de filas duplicadas en función de una columna específica en PySpark DataFrame

En este artículo, eliminaremos las filas duplicadas en función de una columna específica del marco de datos usando pyspark en Python. Datos duplicados significa los mismos datos basados ​​en alguna condición (valores de columna). Para esto, estamos usando el método dropDuplicates():

Sintaxis : dataframe.dropDuplicates([‘columna 1′,’columna 2′,’columna n’]).show()

dónde, 

  • el marco de datos es el marco de datos de entrada y el nombre de la columna es la columna específica
  • El método show() se usa para mostrar el marco de datos

Vamos a crear el marco de datos.

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql
# module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"],
        ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], 
        ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]]
  
# specify column names
columns = ['student ID', 'student NAME', 'college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
print('Actual data in dataframe')
dataframe.show()

Producción:

Descartar basado en una columna

Python3

# remove duplicate rows based on college 
# column
dataframe.dropDuplicates(['college']).show()

Producción:

Descartar basado en múltiples columnas

Python3

# remove duplicate rows based on college 
# and ID column
dataframe.dropDuplicates(['college', 'student ID']).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *