En este artículo, discutiremos cómo seleccionar una columna específica usando su posición desde un marco de datos pyspark en Python. Para esto, usaremos el método dataframe.columns() dentro del método dataframe.select().
Sintaxis :
dataframe.select(dataframe.columns[column_number]).show()
dónde,
- marco de datos es el nombre del marco de datos
- dataframe.columns[]: es el método que puede tomar el número de columna como entrada y seleccionar esa columna
- La función show() se usa para mostrar la columna seleccionada
Vamos a crear un marco de datos de muestra.
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"], ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]] # specify column names columns = ['student ID', 'student NAME', 'college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Selección de una columna por número de columna
Python3
# select column with column number 1 dataframe.select(dataframe.columns[1]).show()
Producción:
También podemos seleccionar varias columnas con la misma función con el operador de división (:). Puede acceder hasta n columnas.
Sintaxis : dataframe.select(dataframe.columns[column_start:column_end]).show()
Python3
#select column with column number slice operator dataframe.select(dataframe.columns[1:3]).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA