En este artículo, vamos a eliminar columnas en el marco de datos de Pyspark. Para hacer esto, usaremos la función drop(). Esta función se puede utilizar para eliminar valores del marco de datos.
Sintaxis: dataframe.drop(‘nombre de columna’)
Código de Python para crear un dataframe de estudiante con tres columnas:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data =[["1","sravan","vignan"], ["2","ojaswi","vvit"], ["3","rohith","vvit"], ["4","sridevi","vignan"], ["1","sravan","vignan"], ["5","gnanesh","iit"]] # specify column names columns=['student ID','student NAME','college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Actual data in dataframe +----------+------------+-------+ |student ID|student NAME|college| +----------+------------+-------+ | 1| sravan| vignan| | 2| ojaswi| vvit| | 3| rohith| vvit| | 4| sridevi| vignan| | 1| sravan| vignan| | 5| gnanesh| iit| +----------+------------+-------+
Ejemplo 1: programa de Python para eliminar una sola columna.
Aquí vamos a eliminar la ‘ID de estudiante’ del marco de datos, para esto usaremos drop().
Python3
# delete single column dataframe=dataframe.drop('student ID') dataframe.show()
Producción:
+------------+-------+ |student NAME|college| +------------+-------+ | sravan| vignan| | ojaswi| vvit| | rohith| vvit| | sridevi| vignan| | sravan| vignan| | gnanesh| iit| +------------+-------+
Ejemplo 2: eliminar varias columnas
Aquí eliminaremos varias columnas en un marco de datos simplemente pasando varias columnas dentro de la función drop().
Python3
# delete two columns dataframe=dataframe.drop(*('student NAME', 'student ID')) dataframe.show()
Producción:
+-------+ |college| +-------+ | vignan| | vvit| | vvit| | vignan| | vignan| | iit| +-------+
Ejemplo 3: Eliminar todas las columnas
Aquí eliminaremos todas las columnas en el marco de datos.
Python3
# delete two columns dataframe=dataframe.drop(*('student NAME', 'student ID', 'college')) dataframe.show()
Producción:
++ || ++ || || || || || || ++
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA