En este artículo, vamos a obtener el valor de una celda en particular en el marco de datos pyspark.
Para esto, usaremos la función recopilar() para obtener todas las filas en el marco de datos. Podemos especificar el índice (posiciones de celda) a la función de recopilación
Creando dataframe para demostración:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data with 5 row values data =[["1","sravan","company 1"], ["2","ojaswi","company 2"], ["3","bobby","company 3"], ["4","rohith","company 2"], ["5","gnanesh","company 1"]] # specify column names columns=['Employee ID','Employee NAME', 'Company Name'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) # display dataframe dataframe.show()
Producción:
collect(): se usa para obtener todas las filas de datos del marco de datos en formato de lista.
Sintaxis: dataframe.collect()
Ejemplo 1: programa de Python que demuestra la función collect()
Python3
# display dataframe using collect() dataframe.collect()
Producción:
[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’),
Fila (ID de empleado = ‘2’, NOMBRE de empleado = ‘ojaswi’, Nombre de la empresa = ‘compañía 2’),
Fila (ID de empleado = ‘3’, NOMBRE de empleado = ‘bobby’, Nombre de la empresa = ‘compañía 3’),
Fila (ID del empleado = ‘4’, NOMBRE del empleado = ‘rohith’, Nombre de la empresa = ‘compañía 2’),
Fila (ID de empleado = ‘5′, NOMBRE de empleado = ‘gnanesh’, Nombre de la empresa = ‘compañía 1’)]
Ejemplo 2: Obtener una fila en particular
Para obtener una fila en particular, podemos usar el método de indexación junto con recopilar. En el marco de datos pyspark, la indexación comienza desde 0
Sintaxis: dataframe.collect()[index_number]
Python3
# display dataframe using collect() print("First row :",dataframe.collect()[0]) print("Third row :",dataframe.collect()[2])
Producción:
Primera fila: Fila (ID del empleado = ‘1’, NOMBRE del empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)
Tercera fila: Fila (ID del empleado = ‘3’, NOMBRE del empleado = ‘bobby’, Nombre de la empresa = ‘compañía 3’)
Ejemplo 3: Obtener una celda en particular
Tenemos que especificar los índices de fila y columna junto con la función de recopilación()
Sintaxis: dataframe.collect()[row_index][column_index]
donde, índice_fila es el número de fila y índice_columna es el número de columna
Aquí accedemos a los valores de las celdas en el marco de datos.
Python3
# first row - second column print("first row - second column :", dataframe.collect()[0][1]) # Third row - Third column print("Third row - Third column :", dataframe.collect()[2][1]) # Third row - Third column print("Third row - Third column :", dataframe.collect()[2][2])
Producción:
first row - second column : sravan Third row - Third column : bobby Third row - Third column : company 3
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA