En este artículo, vamos a eliminar varias columnas de la lista en el marco de datos de Pyspark en Python.
Para ello, utilizaremos la función drop() . Esta función se utiliza para eliminar el valor del marco de datos.
Sintaxis: dataframe.drop(*[‘columna 1′,’columna 2′,’columna n’])
Dónde,
- dataframe es el dataframe de entrada
- los nombres de columna son las columnas que se pasan a través de una lista en el marco de datos.
Código de Python para crear un dataframe de estudiante con tres columnas:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data =[["1","sravan","vignan"], ["2","ojaswi","vvit"], ["3","rohith","vvit"], ["4","sridevi","vignan"], ["1","sravan","vignan"], ["5","gnanesh","iit"]] # specify column names columns=['student ID','student NAME','college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Actual data in dataframe +----------+------------+-------+ |student ID|student NAME|college| +----------+------------+-------+ | 1| sravan| vignan| | 2| ojaswi| vvit| | 3| rohith| vvit| | 4| sridevi| vignan| | 1| sravan| vignan| | 5| gnanesh| iit| +----------+------------+-------+
Ejemplo 1: programa para eliminar varias columnas
Python3
list = ['student NAME','college'] # drop two columns in dataframe dataframe = dataframe.drop(*list) dataframe.show()
Producción:
+----------+ |student ID| +----------+ | 1| | 2| | 3| | 4| | 1| | 5| +----------+
Ejemplo 2: programa de ejemplo para eliminar una columna
Python3
list = ['college'] # drop two columns in dataframe dataframe=dataframe.drop(*list) dataframe.show()
Producción:
+----------+------------+ |student ID|student NAME| +----------+------------+ | 1| sravan| | 2| ojaswi| | 3| rohith| | 4| sridevi| | 1| sravan| | 5| gnanesh| +----------+------------+
Ejemplo 3: descartar todo
Python3
list = ['student ID','student NAME','college'] # drop all columns in dataframe dataframe=dataframe.drop(*list) dataframe.show()
Producción:
++ || ++ || || || || || || ++
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA