¿Cómo ordenar el marco de datos de Pyspark por lista de columnas?

En este artículo, aplicaremos OrderBy con varias columnas sobre el marco de datos pyspark en Python. Ordenar las filas significa organizar las filas en orden ascendente o descendente. 

Método 1: usar Ordenar por()

La función OrderBy() se utiliza para ordenar un objeto por su valor de índice.

Sintaxis: dataframe.orderBy([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).show()

dónde,

  • dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
  • donde las columnas son la primera de las columnas
  • ascending=True especifica el orden del marco de datos en orden creciente, ascendente=Falsespecifica el orden del marco de datos en orden decreciente
  • ID del método show() utilizado para mostrar las columnas.

Vamos a crear un marco de datos de muestra

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"],
        ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"],
        ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]]
  
# specify column names
columns = ['student ID', 'student NAME', 'college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
print("Actual data in dataframe")
# show dataframe
dataframe.show()

Producción:

Aplicar OrderBy con múltiples columnas

Python3

# show dataframe by sorting the dataframe 
# based on two columns in ascending
# order using orderby() function
dataframe.orderBy(['student ID', 'student NAME'],
                  ascending=True).show()

Producción:

Python3

# show dataframe by sorting the dataframe
# based on two columns in descending
# order using orderby() function
dataframe.orderBy(['student ID', 'student NAME'],
                  ascending=False).show()

Producción:

Método 2: Usar sort()

Toma el valor booleano como argumento para ordenar en orden ascendente o descendente.

 Sintaxis: dataframe.sort([‘columna1′,’columna2′,’columna n’],ascending=True).show()

dónde,

  1. dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
  2. donde las columnas son la primera de las columnas
  3. ascending=True especifica el orden del dataframe en orden creciente,ascending=Falsespecifica el orden del dataframe en orden decreciente
  4. ID del método show() utilizado para mostrar las columnas.

Python3

# show dataframe by sorting the dataframe
# based on two columns in descending order
dataframe.sort(['college', 'student NAME'], ascending=False).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *