Extraiga las primeras y últimas N filas de PySpark DataFrame

En este artículo, vamos a extraer las primeras N filas y las últimas N filas del marco de datos usando PySpark en Python. Para hacer nuestra tarea primero, crearemos un marco de datos de muestra.

Tenemos que crear un objeto de chispa con la ayuda de la sesión de chispa y dar el nombre de la aplicación usando el método getorcreate().

spark = SparkSession.builder.appName('sparkdf').getOrCreate()

Finalmente, después de crear los datos con la lista y la lista de columnas para el método:

dataframe = spark.createDataFrame(data, columns)

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of employee data with 5 row values
data = [["1", "sravan", "company 1"],
        ["2", "ojaswi", "company 2"],
        ["3", "bobby", "company 3"],
        ["4", "rohith", "company 2"],
        ["5", "gnanesh", "company 1"]]
  
# specify column names
columns = ['Employee ID', 'Employee NAME', 'Company Name']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
print('Actual data in dataframe')
dataframe.show()

Producción:

Extrayendo las primeras N filas

Podemos extraer las primeras N filas usando varios métodos que se analizan a continuación con la ayuda de algunos ejemplos:

Método 1: Usar head()

Esta función se usa para extraer las N filas superiores en el marco de datos dado

Sintaxis: dataframe.head(n)

dónde, 

  • n especifica el número de filas que se extraerán de la primera
  • dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark.

Python3

print("Top 2 rows ")
  
# extract top 2 rows
a = dataframe.head(2)
print(a)
  
print("Top 1 row ")
  
# extract top 1 row
a = dataframe.head(1)
print(a)

Producción:

2 filas superiores  

[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’), 

Fila (ID de empleado = ‘2’, NOMBRE de empleado = ‘ojaswi’, Nombre de la empresa = ‘compañía 2’)]

1 fila superior  

[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)]

Método 2: Usar primero()

Esta función se usa para extraer solo una fila en el marco de datos.

Sintaxis : dataframe.first()

  • No toma ningún parámetro.
  • dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark

Python3

print("Top row ")
  
# extract top  row
a = dataframe.first()
print(a)

Producción:

Fila superior  

Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)

Método 3: Usar mostrar() 

Se utiliza para mostrar el marco de datos de arriba a abajo de forma predeterminada.

Sintaxis: dataframe.show(n)

dónde,

  • dataframe es el dataframe de entrada
  • n es el número de filas que se mostrarán desde la parte superior, si no se especifica n, imprimirá filas enteras en el marco de datos

Python3

# show() function to get 
# 2 rows
dataframe.show(2)

Producción:

Extracción de las últimas N filas

Extraer las últimas filas significa obtener las últimas N filas del marco de datos dado. Para esto, estamos usando la función tail() y podemos obtener las últimas N filas

Sintaxis: dataframe.tail(n)

dónde,

  • n es el número para obtener las últimas n filas
  • el marco de datos es el marco de datos de entrada

Ejemplo:

Python3

print("Last 2 rows ")
  
# extract last 2 rows
a = dataframe.tail(2)
print(a)
  
print("Last 1 row ")
  
# extract last 1 row
a = dataframe.tail(1)
print(a)

Producción:

Últimas 2 filas  

[Fila (ID de empleado = ‘4′, NOMBRE de empleado = ‘rohith’, Nombre de la empresa = ‘compañía 2’), 

Fila (ID de empleado = ‘5′, NOMBRE de empleado = ‘gnanesh’, Nombre de la empresa = ‘compañía 1’)]

Última 1 fila  

[Row(Id. de empleado=’5′, NOMBRE de empleado=’gnanesh’, Nombre de la empresa=’compañía 1′)]

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *