¿Cómo seleccionar la última fila y acceder al marco de datos de PySpark por índice?

En este artículo, discutiremos cómo seleccionar la última fila y acceder al marco de datos de pyspark por índice.

Creando dataframe para demostración:

Python3

# importing module
import pyspark
 
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
 
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
 
# list  of students  data
data = [["1","sravan","vignan"],
       ["2","ojaswi","vvit"],
       ["3","rohith","vvit"],
       ["4","sridevi","vignan"],
       ["1","sravan","vignan"],
       ["5","gnanesh","iit"]]
 
# specify column names
columns = ['student ID','student NAME','college']
 
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
 
# show dataframe
dataframe.show()

Producción:

Seleccione la última fila del marco de datos

Ejemplo 1: Uso de la función tail().

Esta función se utiliza para acceder a la última fila del marco de datos

Sintaxis: dataframe.tail(n)

dónde 

  1. n es el número de filas a seleccionar desde la última.
  2. dataframe es el dataframe de entrada

Podemos usar n = 1 para seleccionar solo la última fila.

Ejemplo 1: Selección de la última fila.

Python3

# access last row of the dataframe
dataframe.tail(1)

Producción:

[Row(student ID=’5′, student NAME=’gnanesh’, college=’iit’)]

Ejemplo 2: programa de Python para acceder a las últimas N filas.

Python3

# access last 5 rows of the
# dataframe
dataframe.tail(5)

Producción:

[Row(student ID='2', student NAME='ojaswi', college='vvit'),
Row(student ID='3', student NAME='rohith', college='vvit'),
Row(student ID='4', student NAME='sridevi', college='vignan'),
Row(student ID='1', student NAME='sravan', college='vignan'),
Row(student ID='5', student NAME='gnanesh', college='iit')]

Acceda al marco de datos por índice de columna

Aquí vamos a seleccionar el marco de datos en función del número de columna. Para seleccionar una columna específica usando el número de columna en el marco de datos pyspark, estamos usando la función select()

Sintaxis : dataframe.select(dataframe.columns[column_number]).show()

dónde,

  1. marco de datos es el nombre del marco de datos
  2. dataframe.columns[]: es el método que puede tomar el número de columna como entrada y seleccionar esa columna
  3. La función show() se usa para mostrar la columna seleccionada

Ejemplo 1: programa de Python para acceder a la columna según el número de columna

Python3

# select column with column number 1
dataframe.select(dataframe.columns[1]).show()

Producción:

+------------+
|student NAME|
+------------+
|      sravan|
|      ojaswi|
|      rohith|
|     sridevi|
|      sravan|
|     gnanesh|
+------------+

Ejemplo 2: acceder a varias columnas en función del número de columna, aquí vamos a seleccionar varias columnas mediante el uso del operador de división, puede acceder hasta n columnas

Sintaxis: dataframe.select(dataframe.columns[column_start:column_end]).show()

donde: column_start es el índice inicial y column_end es el índice final.

Python3

# select column with column number slice
# operator
dataframe.select(dataframe.columns[0:3]).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *