Filtrado de filas en función de los valores de columna en el marco de datos de PySpark

En este artículo, vamos a filtrar las filas en función de los valores de columna en el marco de datos de PySpark.

Creando Dataframe para demostración:

Python3

# importing module
import spark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of employee data
data = [["1", "sravan", "company 1"],
        ["2", "ojaswi", "company 1"],
        ["3", "rohith", "company 2"],
        ["4", "sridevi", "company 1"],
        ["1", "sravan", "company 1"],
        ["4", "sridevi", "company 1"]]
  
# specify column names
columns = ['ID', 'NAME', 'Company']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
dataframe.show()

Producción:

Método 1: Usar la función where()

Esta función se utiliza para verificar la condición y dar los resultados.

Sintaxis: dataframe.where(condición)

Vamos a filtrar las filas usando valores de columna a través de la condición, donde la condición es la condición del marco de datos

Ejemplo 1: filtrar filas en el marco de datos donde ID = 1

Python3

# get the data where ID=1
dataframe.where(dataframe.ID=='1').show()

Producción:

Ejemplo 2:

Python3

# get the data where name not 'sravan'
dataframe.where(dataframe.NAME != 'sravan').show()

Producción:

Ejemplo 3: Filtrado de valores de varias columnas de la cláusula Where.

Programa de Python para filtrar filas donde ID mayor que 2 y universidad es vvit

Python3

# filter rows where ID greater than 2
# and college is vvit
dataframe.where((dataframe.ID>'2') & (dataframe.college=='vvit')).show()

Producción:

Método 2: Usar la función filter()

Esta función se utiliza para verificar la condición y dar los resultados.

Sintaxis: dataframe.filter(condición)

Ejemplo 1: código de Python para obtener el valor de la columna = vvit college

Python3

# get the data where college is  'vvit'
dataframe.filter(dataframe.college=='vvit').show()

Producción:

Ejemplo 2: filtrar los datos donde id > 3.

Python3

# get the data where id > 3
dataframe.filter(dataframe.ID>'3').show()

Producción:

Ejemplo 3: Filtrado de valores de varias columnas.

Programa Python para filtrar filas donde ID mayor que 2 y universidad es vignan

Python3

# filter rows where ID greater
# than 2 and college is vignan
dataframe.filter((dataframe.ID>'2') &
                 (dataframe.college=='vignan')).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *