En este artículo, vamos a extraer las primeras N filas y las últimas N filas del marco de datos usando PySpark en Python. Para hacer nuestra tarea primero, crearemos un marco de datos de muestra.
Tenemos que crear un objeto de chispa con la ayuda de la sesión de chispa y dar el nombre de la aplicación usando el método getorcreate().
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
Finalmente, después de crear los datos con la lista y la lista de columnas para el método:
dataframe = spark.createDataFrame(data, columns)
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data with 5 row values data = [["1", "sravan", "company 1"], ["2", "ojaswi", "company 2"], ["3", "bobby", "company 3"], ["4", "rohith", "company 2"], ["5", "gnanesh", "company 1"]] # specify column names columns = ['Employee ID', 'Employee NAME', 'Company Name'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print('Actual data in dataframe') dataframe.show()
Producción:
Extrayendo las primeras N filas
Podemos extraer las primeras N filas usando varios métodos que se analizan a continuación con la ayuda de algunos ejemplos:
Método 1: Usar head()
Esta función se usa para extraer las N filas superiores en el marco de datos dado
Sintaxis: dataframe.head(n)
dónde,
- n especifica el número de filas que se extraerán de la primera
- dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark.
Python3
print("Top 2 rows ") # extract top 2 rows a = dataframe.head(2) print(a) print("Top 1 row ") # extract top 1 row a = dataframe.head(1) print(a)
Producción:
2 filas superiores
[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’),
Fila (ID de empleado = ‘2’, NOMBRE de empleado = ‘ojaswi’, Nombre de la empresa = ‘compañía 2’)]
1 fila superior
[Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)]
Método 2: Usar primero()
Esta función se usa para extraer solo una fila en el marco de datos.
Sintaxis : dataframe.first()
- No toma ningún parámetro.
- dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
Python3
print("Top row ") # extract top row a = dataframe.first() print(a)
Producción:
Fila superior
Fila (ID de empleado = ‘1’, NOMBRE de empleado = ‘sravan’, Nombre de la empresa = ‘compañía 1’)
Método 3: Usar mostrar()
Se utiliza para mostrar el marco de datos de arriba a abajo de forma predeterminada.
Sintaxis: dataframe.show(n)
dónde,
- dataframe es el dataframe de entrada
- n es el número de filas que se mostrarán desde la parte superior, si no se especifica n, imprimirá filas enteras en el marco de datos
Python3
# show() function to get # 2 rows dataframe.show(2)
Producción:
Extracción de las últimas N filas
Extraer las últimas filas significa obtener las últimas N filas del marco de datos dado. Para esto, estamos usando la función tail() y podemos obtener las últimas N filas
Sintaxis: dataframe.tail(n)
dónde,
- n es el número para obtener las últimas n filas
- el marco de datos es el marco de datos de entrada
Ejemplo:
Python3
print("Last 2 rows ") # extract last 2 rows a = dataframe.tail(2) print(a) print("Last 1 row ") # extract last 1 row a = dataframe.tail(1) print(a)
Producción:
Últimas 2 filas
[Fila (ID de empleado = ‘4′, NOMBRE de empleado = ‘rohith’, Nombre de la empresa = ‘compañía 2’),
Fila (ID de empleado = ‘5′, NOMBRE de empleado = ‘gnanesh’, Nombre de la empresa = ‘compañía 1’)]
Última 1 fila
[Row(Id. de empleado=’5′, NOMBRE de empleado=’gnanesh’, Nombre de la empresa=’compañía 1′)]
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA