En este artículo, eliminaremos las filas duplicadas mediante el uso de funciones distintivas() y dropDuplicates() del marco de datos utilizando pyspark en Python.
Vamos a crear un marco de datos de muestra
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data data = [["1", "sravan", "company 1"], ["2", "ojaswi", "company 1"], ["3", "rohith", "company 2"], ["4", "sridevi", "company 1"], ["1", "sravan", "company 1"], ["4", "sridevi", "company 1"]] # specify column names columns = ['Employee ID', 'Employee NAME', 'Company'] # creating a dataframe from the # lists of data dataframe = spark.createDataFrame(data, columns) print('Actual data in dataframe') dataframe.show()
Producción:
Método 1: Distinto
Datos distintos significa datos únicos. Eliminará las filas duplicadas en el marco de datos
Sintaxis : dataframe.distinct()
donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
Python3
print('distinct data after dropping duplicate rows') # display distinct data dataframe.distinct().show()
Producción:
Podemos usar la función select() junto con la función distinta para obtener valores distintos de columnas particulares
Sintaxis : dataframe.select([‘columna 1′,’columna n’]).distinct().show()
Python3
# display distinct data in Employee # ID and Employee NAME dataframe.select(['Employee ID', 'Employee NAME']).distinct().show()
Producción:
Método 2: dropDuplicate
Sintaxis: dataframe.dropDuplicates()
donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
Python3
# remove duplicate data using # dropDuplicates()function dataframe.dropDuplicates().show()
Producción:
Programa de Python para eliminar valores duplicados en columnas específicas
Python3
# remove duplicate data using # dropDuplicates() function in # two columns dataframe.select(['Employee ID', 'Employee NAME'] ).dropDuplicates().show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA