Mostrar valores de columna distintos en el marco de datos de PySpark

En este artículo, mostraremos los distintos valores de columna del marco de datos usando pyspark en Python. Para esto, estamos usando funciones distintivas() y dropDuplicates() junto con la función select().

Vamos a crear un marco de datos de muestra.

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of employee data with 5 row values
data =[["1", "sravan", "company 1"],
       ["3", "bobby", "company 3"],
       ["2", "ojaswi", "company 2"],
       ["1", "sravan", "company 1"],
       ["3", "bobby", "company 3"],
       ["4", "rohith", "company 2"],
       ["5", "gnanesh", "company 1"]]
  
# specify column names
columns = ['Employee ID','Employee NAME','Company Name']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
  
dataframe.show()

Producción:

Método 1: Usando distinguido()

Esta función devuelve valores distintos de la columna usando la función distintiva().

Sintaxis: dataframe.select(“nombre_columna”).distinct().show()

Ejemplo 1: para una sola columna.

Python3

# select first column to get
# unique data using distinct function()
dataframe.select("Employee ID").distinct().show()

Producción:

+-----------+
|Employee ID|
+-----------+
|          3|
|          5|
|          1|
|          4|
|          2|
+-----------+

Ejemplo 2: para varias columnas.

Código de Python para mostrar datos únicos de 2 columnas usando la función distintiva().

Sintaxis: dataframe.select(“nombre_columna 1, nombre_columna 2”).distinct().show()

Código:

Python3

# select first and second column
# to get unique data using distinct function()
dataframe.select(["Employee ID",
                  "Employee NAME"]).distinct().show()

Producción:

+-----------+-------------+
|Employee ID|Employee NAME|
+-----------+-------------+
|          5|      gnanesh|
|          4|       rohith|
|          1|       sravan|
|          2|       ojaswi|
|          3|        bobby|
+-----------+-------------+

Método 2: Usar dropDuplicates()

Esta función muestra datos únicos en una columna del marco de datos usando la función dropDuplicates().

Sintaxis: dataframe.select(“nombre_columna”).dropDuplicates().show()

Ejemplo 1: para columnas individuales.

Python3

#select first  column to get
# unique data using dropDuplicates function()
dataframe.select("Employee ID").dropDuplicates().show()

Producción:

+-----------+
|Employee ID|
+-----------+
|          3|
|          5|
|          1|
|          4|
|          2|
+-----------+

Ejemplo 2: para múltiples columnas

Código de Python para mostrar datos únicos de 2 columnas usando la función dropDuplicates()

Python3

#select first and second column
# to get unique data using dropDuplicates function()
dataframe.select(["Employee ID",
                  "Employee NAME"]).dropDuplicates().show()

Producción:

+-----------+-------------+
|Employee ID|Employee NAME|
+-----------+-------------+
|          5|      gnanesh|
|          4|       rohith|
|          1|       sravan|
|          2|       ojaswi|
|          3|        bobby|
+-----------+-------------+

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *