¿Cómo eliminar columnas en el marco de datos de PySpark?

En este artículo, vamos a eliminar columnas en el marco de datos de Pyspark. Para hacer esto, usaremos la función drop(). Esta función se puede utilizar para eliminar valores del marco de datos.

Sintaxis: dataframe.drop(‘nombre de columna’)

Código de Python para crear un dataframe de estudiante con tres columnas:

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data 
data =[["1","sravan","vignan"],
       ["2","ojaswi","vvit"],
       ["3","rohith","vvit"],
       ["4","sridevi","vignan"],
       ["1","sravan","vignan"], 
       ["5","gnanesh","iit"]]
  
# specify column names
columns=['student ID','student NAME','college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
  
print("Actual data in dataframe")
  
# show dataframe
dataframe.show()

Producción:

Actual data in dataframe
+----------+------------+-------+
|student ID|student NAME|college|
+----------+------------+-------+
|         1|      sravan| vignan|
|         2|      ojaswi|   vvit|
|         3|      rohith|   vvit|
|         4|     sridevi| vignan|
|         1|      sravan| vignan|
|         5|     gnanesh|    iit|
+----------+------------+-------+

Ejemplo 1: programa de Python para eliminar una sola columna.

Aquí vamos a eliminar la ‘ID de estudiante’ del marco de datos, para esto usaremos drop().

Python3

# delete single column
dataframe=dataframe.drop('student ID')
dataframe.show()

Producción:

+------------+-------+
|student NAME|college|
+------------+-------+
|      sravan| vignan|
|      ojaswi|   vvit|
|      rohith|   vvit|
|     sridevi| vignan|
|      sravan| vignan|
|     gnanesh|    iit|
+------------+-------+

Ejemplo 2: eliminar varias columnas

Aquí eliminaremos varias columnas en un marco de datos simplemente pasando varias columnas dentro de la función drop().

Python3

# delete two columns
dataframe=dataframe.drop(*('student NAME',
                           'student ID'))
dataframe.show()

Producción:

+-------+
|college|
+-------+
| vignan|
|   vvit|
|   vvit|
| vignan|
| vignan|
|    iit|
+-------+

Ejemplo 3: Eliminar todas las columnas

Aquí eliminaremos todas las columnas en el marco de datos.

Python3

# delete two columns
dataframe=dataframe.drop(*('student NAME',
                           'student ID',
                           'college'))
dataframe.show()

Producción:

++
||
++
||
||
||
||
||
||
++

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *