En este artículo, vamos a soltar las filas con un valor específico en el marco de datos pyspark.
Creando dataframe para demostración:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"], ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], ["6", "ravi", "vrs"], ["5", "gnanesh", "iit"]] # specify column names columns = ['ID', 'NAME', 'college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print('Actual data in dataframe') dataframe.show()
Producción:
Método 1: Usar la función where()
Esta función se utiliza para verificar la condición y dar los resultados. Eso significa que elimina las filas en función de los valores en la columna del marco de datos
Sintaxis: dataframe.where(condición)
Ejemplo 1: programa de Python para soltar filas con college = vrs.
Python3
# drop rows with college vrs dataframe.where(dataframe.college!='vrs').show()
Producción:
Ejemplo 2: programa Python para soltar filas con ID=1
Python3
# drop rows with id=1 dataframe.where(dataframe.ID !='1').show()
Producción:
Método 2: Usar la función filter()
Esta función se usa para verificar la condición y dar los resultados, lo que significa que elimina las filas según los valores en la columna del marco de datos. Ambos son similares.
Sintaxis: dataframe.filter(condición)
Ejemplo: código de Python para soltar fila con nombre = ravi.
Python3
# drop rows with name = ravi dataframe.filter(dataframe.NAME !='ravi').show()
Producción:
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA