En este artículo, discutiremos cómo seleccionar columnas del marco de datos pyspark. Para hacer esto usaremos la función select().
Sintaxis: dataframe.select(parámetro).show()
dónde,
- marco de datos es el nombre del marco de datos
- el parámetro es la(s) columna(s) a seleccionar
- La función show() se usa para mostrar la columna seleccionada
Vamos a crear un marco de datos de muestra
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"], ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]] # specify column names columns = ['student ID', 'student NAME', 'college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Selección de una sola columna
Con el nombre de la columna, podemos obtener la columna completa en el marco de datos
Sintaxis: dataframe.select(“nombre_columna”).show()
Python3
# select column with column name dataframe.select('student ID').show()
Producción:
Selección de varias columnas
Con varios nombres de columna, podemos obtener la columna completa en el marco de datos
Sintaxis: dataframe.select([“column_name1″,”column_name 2″,”column_name n”]).show()
Python3
# select multiple column with column name dataframe.select(['student ID', 'student NAME', 'college']).show()
Producción:
Seleccionar usando el número de columna
Aquí vamos a seleccionar las columnas según el número de columna. Esto se puede hacer usando el operador de indexación. Podemos pasar el número de columna como índice a dataframe.columns[].
Sintaxis: dataframe.select(dataframe.columns[column_number]).show()
Python3
# select column with column number 1 dataframe.select(dataframe.columns[1]).show()
Producción:
Acceso a varias columnas según el número de columna. Aquí vamos a seleccionar varias columnas usando el operador de división.
Sintaxis : dataframe.select(dataframe.columns[column_start:column_end]).show()
donde, column_start es el índice inicial y column_end es el índice final
Python3
# select column with column number slice # operator dataframe.select(dataframe.columns[0:3]).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA