¿Cómo obtener filas distintas en el marco de datos usando PySpark?

En este artículo, vamos a obtener los datos distintos del marco de datos pyspark en Python, por lo que vamos a crear el marco de datos utilizando una lista anidada y obtener los datos distintos.

Vamos a crear un marco de datos a partir de la lista pyspark sin pasar por la lista al método createDataFrame() de pyspark, luego, al usar la función distintiva() obtendremos las filas distintas del marco de datos.

Sintaxis: dataframe.distinct()

Donde dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Ejemplo 1 : código de Python para obtener los datos distintos de los datos de la universidad en un marco de datos creado por una lista de listas.

Python3

# importing module
import pyspark
  
# importing sparksession from 
# pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving
# an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of college data
data = [["1", "bobby", "vvit"], 
        ["2", "sravan", "jntuk"],
        ["3", "rohith", "AU"],
        ["4", "sridevi", "GVRS"], 
        ["1", "bobby", "vvit"]]
  
# specify column names
columns = ['ID', 'NAME', 'COLLEGE']
  
# creating a dataframe from the 
# lists of data
dataframe = spark.createDataFrame(data, columns)
  
print('Actual data in dataframe')
dataframe.show()

Producción:

Ahora obtenga las filas distintas en el marco de datos:

Python3

print('distinct data')
  
# display distinct data
dataframe.distinct().show()

Producción:

Ejemplo 2: programa de Python para encontrar valores distintos de 1 fila

Python3

# importing module
import pyspark
  
# importing sparksession from 
# pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving
# an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of college data
data = [["1", "bobby", "vvit"]]
  
# specify column names
columns = ['ID', 'NAME', 'COLLEGE']
  
# creating a dataframe from the 
# list of data
dataframe = spark.createDataFrame(data, columns)
  
print('Actual data in dataframe')
dataframe.show()

Producción:

Ahora obtenga las filas distintas en el marco de datos:

Python3

print('distinct data')
  
# display distinct data from
# the dataframe
dataframe.distinct().show()

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *