PySpark: seleccione columnas de DataFrame

En este artículo, discutiremos cómo seleccionar columnas del marco de datos pyspark. Para hacer esto usaremos la función select().

Sintaxis: dataframe.select(parámetro).show()

dónde, 

  • marco de datos es el nombre del marco de datos
  • el parámetro es la(s) columna(s) a seleccionar
  • La función show() se usa para mostrar la columna seleccionada

Vamos a crear un marco de datos de muestra

Python3

# importing module
import pyspark
 
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
 
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
 
# list  of students  data
data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"],
        ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"],
        ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]]
 
# specify column names
columns = ['student ID', 'student NAME', 'college']
 
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
 
print("Actual data in dataframe")
# show dataframe
dataframe.show()

Producción:

Selección de una sola columna

Con el nombre de la columna, podemos obtener la columna completa en el marco de datos

Sintaxis: dataframe.select(“nombre_columna”).show()

Python3

# select column with column name
dataframe.select('student ID').show()

Producción:

Selección de varias columnas

Con varios nombres de columna, podemos obtener la columna completa en el marco de datos

Sintaxis: dataframe.select([“column_name1″,”column_name 2″,”column_name n”]).show()

Python3

# select multiple column with column name
dataframe.select(['student ID', 'student NAME', 'college']).show()

Producción:

Seleccionar usando el número de columna

Aquí vamos a seleccionar las columnas según el número de columna. Esto se puede hacer usando el operador de indexación. Podemos pasar el número de columna como índice a dataframe.columns[].

Sintaxis: dataframe.select(dataframe.columns[column_number]).show()

Python3

# select column with column number 1
dataframe.select(dataframe.columns[1]).show()

Producción:

Acceso a varias columnas según el número de columna. Aquí vamos a seleccionar varias columnas usando el operador de división. 

Sintaxis : dataframe.select(dataframe.columns[column_start:column_end]).show()

donde, column_start es el índice inicial y column_end es el índice final

Python3

# select column with column number slice
# operator
dataframe.select(dataframe.columns[0:3]).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *