Soltar filas duplicadas en PySpark DataFrame

En este artículo, eliminaremos las filas duplicadas mediante el uso de funciones distintivas() y dropDuplicates() del marco de datos utilizando pyspark en Python. 

Vamos a crear un marco de datos de muestra

Python3

# importing module
import pyspark
 
# importing sparksession from
# pyspark.sql module
from pyspark.sql import SparkSession
 
# creating sparksession and giving
# an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
 
# list  of employee data
data = [["1", "sravan", "company 1"],
        ["2", "ojaswi", "company 1"],
        ["3", "rohith", "company 2"],
        ["4", "sridevi", "company 1"],
        ["1", "sravan", "company 1"],
        ["4", "sridevi", "company 1"]]
 
# specify column names
columns = ['Employee ID', 'Employee NAME', 'Company']
 
# creating a dataframe from the
# lists of data
dataframe = spark.createDataFrame(data, columns)
 
print('Actual data in dataframe')
dataframe.show()

Producción:

Método 1: Distinto

Datos distintos significa datos únicos. Eliminará las filas duplicadas en el marco de datos

Sintaxis : dataframe.distinct()

donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Python3

print('distinct data after dropping duplicate rows')
 
# display distinct data
dataframe.distinct().show()

Producción:

Podemos usar la función select() junto con la función distinta para obtener valores distintos de columnas particulares

Sintaxis : dataframe.select([‘columna 1′,’columna n’]).distinct().show()

Python3

# display distinct data in Employee
# ID and Employee NAME
dataframe.select(['Employee ID', 'Employee NAME']).distinct().show()

Producción:

Método 2: dropDuplicate

Sintaxis: dataframe.dropDuplicates()

donde, marco de datos es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Python3

# remove duplicate data using
# dropDuplicates()function
dataframe.dropDuplicates().show()

Producción:

Programa de Python para eliminar valores duplicados en columnas específicas

Python3

# remove duplicate data using
# dropDuplicates() function in
# two columns
dataframe.select(['Employee ID', 'Employee NAME']
                ).dropDuplicates().show()

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *