En este artículo, vamos a filtrar las filas en función de los valores de columna en el marco de datos de PySpark.
Creando Dataframe para demostración:
Python3
# importing module import spark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data data = [["1", "sravan", "company 1"], ["2", "ojaswi", "company 1"], ["3", "rohith", "company 2"], ["4", "sridevi", "company 1"], ["1", "sravan", "company 1"], ["4", "sridevi", "company 1"]] # specify column names columns = ['ID', 'NAME', 'Company'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) dataframe.show()
Producción:
Método 1: Usar la función where()
Esta función se utiliza para verificar la condición y dar los resultados.
Sintaxis: dataframe.where(condición)
Vamos a filtrar las filas usando valores de columna a través de la condición, donde la condición es la condición del marco de datos
Ejemplo 1: filtrar filas en el marco de datos donde ID = 1
Python3
# get the data where ID=1 dataframe.where(dataframe.ID=='1').show()
Producción:
Ejemplo 2:
Python3
# get the data where name not 'sravan' dataframe.where(dataframe.NAME != 'sravan').show()
Producción:
Ejemplo 3: Filtrado de valores de varias columnas de la cláusula Where.
Programa de Python para filtrar filas donde ID mayor que 2 y universidad es vvit
Python3
# filter rows where ID greater than 2 # and college is vvit dataframe.where((dataframe.ID>'2') & (dataframe.college=='vvit')).show()
Producción:
Método 2: Usar la función filter()
Esta función se utiliza para verificar la condición y dar los resultados.
Sintaxis: dataframe.filter(condición)
Ejemplo 1: código de Python para obtener el valor de la columna = vvit college
Python3
# get the data where college is 'vvit' dataframe.filter(dataframe.college=='vvit').show()
Producción:
Ejemplo 2: filtrar los datos donde id > 3.
Python3
# get the data where id > 3 dataframe.filter(dataframe.ID>'3').show()
Producción:
Ejemplo 3: Filtrado de valores de varias columnas.
Programa Python para filtrar filas donde ID mayor que 2 y universidad es vignan
Python3
# filter rows where ID greater # than 2 and college is vignan dataframe.filter((dataframe.ID>'2') & (dataframe.college=='vignan')).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA