¿Cómo eliminar varios nombres de columna dados en una lista de PySpark DataFrame?

En este artículo, vamos a eliminar varias columnas de la lista en el marco de datos de Pyspark en Python.

Para ello, utilizaremos la función drop() . Esta función se utiliza para eliminar el valor del marco de datos.

Sintaxis: dataframe.drop(*[‘columna 1′,’columna 2′,’columna n’])

Dónde,

  • dataframe es el dataframe de entrada
  • los nombres de columna son las columnas que se pasan a través de una lista en el marco de datos.

Código de Python para crear un dataframe de estudiante con tres columnas:

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data 
data =[["1","sravan","vignan"],
       ["2","ojaswi","vvit"],
       ["3","rohith","vvit"],
       ["4","sridevi","vignan"],
       ["1","sravan","vignan"], 
       ["5","gnanesh","iit"]]
  
# specify column names
columns=['student ID','student NAME','college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
  
print("Actual data in dataframe")
  
# show dataframe
dataframe.show()

Producción:

Actual data in dataframe
+----------+------------+-------+
|student ID|student NAME|college|
+----------+------------+-------+
|         1|      sravan| vignan|
|         2|      ojaswi|   vvit|
|         3|      rohith|   vvit|
|         4|     sridevi| vignan|
|         1|      sravan| vignan|
|         5|     gnanesh|    iit|
+----------+------------+-------+

Ejemplo 1: programa para eliminar varias columnas

Python3

list = ['student NAME','college']
  
# drop two  columns in dataframe
dataframe = dataframe.drop(*list)
dataframe.show()

Producción:

+----------+
|student ID|
+----------+
|         1|
|         2|
|         3|
|         4|
|         1|
|         5|
+----------+

Ejemplo 2: programa de ejemplo para eliminar una columna

Python3

list = ['college']
  
# drop two  columns in dataframe
dataframe=dataframe.drop(*list)
dataframe.show()

Producción:

+----------+------------+
|student ID|student NAME|
+----------+------------+
|         1|      sravan|
|         2|      ojaswi|
|         3|      rohith|
|         4|     sridevi|
|         1|      sravan|
|         5|     gnanesh|
+----------+------------+

Ejemplo 3: descartar todo

Python3

list = ['student ID','student NAME','college']
  
# drop all  columns in dataframe
dataframe=dataframe.drop(*list)
dataframe.show()

Producción:

++
||
++
||
||
||
||
||
||
++

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *