Obtenga el valor de una celda en particular en PySpark Dataframe

En este artículo, vamos a obtener el valor de una celda en particular en el marco de datos pyspark.

Para esto, usaremos la función recopilar() para obtener todas las filas en el marco de datos. Podemos especificar el índice (posiciones de celda) a la función de recopilación

Creando dataframe para demostración:

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of employee data with 5 row values
data =[["1","sravan","company 1"],
       ["2","ojaswi","company 2"],
       ["3","bobby","company 3"],
       ["4","rohith","company 2"],
       ["5","gnanesh","company 1"]]
  
# specify column names
columns=['Employee ID','Employee NAME',
         'Company Name']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data,columns)
  
# display dataframe
dataframe.show()

Producción:

collect(): se usa para obtener todas las filas de datos del marco de datos en formato de lista.

Sintaxis: dataframe.collect()

Ejemplo 1: programa de Python que demuestra la función collect()

Python3

# display dataframe using collect()
dataframe.collect()

Producción:

[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’),

Fila (ID de empleado = ‘2’, NOMBRE de empleado = ‘ojaswi’, Nombre de la empresa = ‘compañía 2’),

Fila (ID de empleado = ‘3’, NOMBRE de empleado = ‘bobby’, Nombre de la empresa = ‘compañía 3’),

Fila (ID del empleado = ‘4’, NOMBRE del empleado = ‘rohith’, Nombre de la empresa = ‘compañía 2’),

Fila (ID de empleado = ‘5′, NOMBRE de empleado = ‘gnanesh’, Nombre de la empresa = ‘compañía 1’)]

Ejemplo 2: Obtener una fila en particular

Para obtener una fila en particular, podemos usar el método de indexación junto con recopilar. En el marco de datos pyspark, la indexación comienza desde 0

Sintaxis: dataframe.collect()[index_number]

Python3

# display dataframe using collect()
print("First row :",dataframe.collect()[0])
  
print("Third row :",dataframe.collect()[2])

Producción:

Primera fila: Fila (ID del empleado = ‘1’, NOMBRE del empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)

Tercera fila: Fila (ID del empleado = ‘3’, NOMBRE del empleado = ‘bobby’, Nombre de la empresa = ‘compañía 3’)

Ejemplo 3: Obtener una celda en particular

Tenemos que especificar los índices de fila y columna junto con la función de recopilación()

Sintaxis: dataframe.collect()[row_index][column_index]

donde, índice_fila es el número de fila y índice_columna es el número de columna

Aquí accedemos a los valores de las celdas en el marco de datos.

Python3

# first row - second column
print("first row - second column  :",
      dataframe.collect()[0][1])
  
# Third  row - Third column
print("Third  row - Third column  :",
      dataframe.collect()[2][1])
  
# Third  row - Third column
print("Third  row - Third column  :",
      dataframe.collect()[2][2])

Producción:

first row - second column  : sravan
Third  row - Third column  : bobby
Third  row - Third column  : company 3

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *