En este artículo, mostraremos los distintos valores de columna del marco de datos usando pyspark en Python. Para esto, estamos usando funciones distintivas() y dropDuplicates() junto con la función select().
Vamos a crear un marco de datos de muestra.
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data with 5 row values data =[["1", "sravan", "company 1"], ["3", "bobby", "company 3"], ["2", "ojaswi", "company 2"], ["1", "sravan", "company 1"], ["3", "bobby", "company 3"], ["4", "rohith", "company 2"], ["5", "gnanesh", "company 1"]] # specify column names columns = ['Employee ID','Employee NAME','Company Name'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) dataframe.show()
Producción:
Método 1: Usando distinguido()
Esta función devuelve valores distintos de la columna usando la función distintiva().
Sintaxis: dataframe.select(“nombre_columna”).distinct().show()
Ejemplo 1: para una sola columna.
Python3
# select first column to get # unique data using distinct function() dataframe.select("Employee ID").distinct().show()
Producción:
+-----------+ |Employee ID| +-----------+ | 3| | 5| | 1| | 4| | 2| +-----------+
Ejemplo 2: para varias columnas.
Código de Python para mostrar datos únicos de 2 columnas usando la función distintiva().
Sintaxis: dataframe.select(“nombre_columna 1, nombre_columna 2”).distinct().show()
Código:
Python3
# select first and second column # to get unique data using distinct function() dataframe.select(["Employee ID", "Employee NAME"]).distinct().show()
Producción:
+-----------+-------------+ |Employee ID|Employee NAME| +-----------+-------------+ | 5| gnanesh| | 4| rohith| | 1| sravan| | 2| ojaswi| | 3| bobby| +-----------+-------------+
Método 2: Usar dropDuplicates()
Esta función muestra datos únicos en una columna del marco de datos usando la función dropDuplicates().
Sintaxis: dataframe.select(“nombre_columna”).dropDuplicates().show()
Ejemplo 1: para columnas individuales.
Python3
#select first column to get # unique data using dropDuplicates function() dataframe.select("Employee ID").dropDuplicates().show()
Producción:
+-----------+ |Employee ID| +-----------+ | 3| | 5| | 1| | 4| | 2| +-----------+
Ejemplo 2: para múltiples columnas
Código de Python para mostrar datos únicos de 2 columnas usando la función dropDuplicates()
Python3
#select first and second column # to get unique data using dropDuplicates function() dataframe.select(["Employee ID", "Employee NAME"]).dropDuplicates().show()
Producción:
+-----------+-------------+ |Employee ID|Employee NAME| +-----------+-------------+ | 5| gnanesh| | 4| rohith| | 1| sravan| | 2| ojaswi| | 3| bobby| +-----------+-------------+
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA