En este artículo, eliminaremos los datos duplicados del marco de datos usando pyspark en Python
Antes de comenzar vamos a crear Dataframe para demostración:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data data =[["1","sravan","company 1"], ["2","ojaswi","company 1"], ["3","rohith","company 2"], ["4","sridevi","company 1"], ["1","sravan","company 1"], ["4","sridevi","company 1"]] # specify column names columns = ['Employee ID','Employee NAME','Company'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) print('Actual data in dataframe') dataframe.show()
Producción:
Método 1: usar el método distinto()
Eliminará las filas duplicadas en el marco de datos
Sintaxis: dataframe.distinct()
Donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
Ejemplo 1: programa de Python para eliminar datos duplicados usando la función distintiva()
Python3
print('distinct data after dropping duplicate rows') # display distinct data dataframe.distinct().show()
Producción:
Ejemplo 2: programa Python para seleccionar datos distintos en solo dos columnas.
Podemos usar la función de selección() junto con la función distinta para obtener valores distintos de columnas particulares
Sintaxis : dataframe.select([‘columna 1′,’columna n’]).distinct().show()
Python3
# display distinct data in # Employee ID and Employee NAME dataframe.select(['Employee ID', 'Employee NAME']).distinct().show()
Producción:
Método 2: Usar el método dropDuplicates()
Sintaxis: dataframe.dropDuplicates()
donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
Ejemplo 1: programa Python para eliminar datos duplicados de la tabla de empleados.
Python3
# remove duplicate data # using dropDuplicates()function dataframe.dropDuplicates().show()
Producción:
Ejemplo 2: programa de Python para eliminar valores duplicados en columnas específicas
Python3
# remove duplicate data # using dropDuplicates()function # in two columns dataframe.select(['Employee ID', 'Employee NAME']).dropDuplicates().show()
Producción:
Publicación traducida automáticamente
Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA