PySpark DataFrame: seleccione todo excepto uno o un conjunto de columnas

En este artículo, vamos a extraer todas las columnas excepto un conjunto de columnas o una columna del marco de datos de Pyspark. Para ello, utilizaremos las funciones select(), drop().

Pero primero, creemos Dataframe para demostración.

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [["1", "sravan", "vignan"],
        ["2", "ojaswi", "vvit"],
        ["3", "rohith", "vvit"],
        ["4", "sridevi", "vignan"],
        ["1", "sravan", "vignan"],
        ["5", "gnanesh", "iit"]]
  
# specify column names
columns = ['student ID', 'student NAME', 'college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
print('Actual data in dataframe')
dataframe.show()

Producción:

Método 1: Usar la función drop()

drop() se usa para eliminar las columnas del marco de datos.

Sintaxis: dataframe.drop(‘column_names’)

Donde el marco de datos es el marco de datos de entrada y los nombres de las columnas son las columnas que se descartarán

Ejemplo: programa de Python para seleccionar datos soltando una columna

Python3

# drop student id
dataframe.drop('student ID').show()

Producción:

Ejemplo 2: programa de Python para eliminar más de una columna (conjunto de columnas)

Python3

# drop student id and college
dataframe.drop('student ID','college').show()

Producción:

Método 2: Usando la función select()

Esta función se utiliza para seleccionar las columnas del marco de datos

Sintaxis: dataframe.select(columnas)

Donde dataframe es el dataframe de entrada y las columnas son las columnas de entrada

Ejemplo 1: seleccione una columna del marco de datos.

Python3

# select student id 
dataframe.select('student ID').show()

Producción:

Ejemplo 2: programa Python para seleccionar dos columnas id y nombre

Python3

# select student id and student name
dataframe.select('student ID','student NAME').show()

Producción:

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *