¿Cómo seleccionar y ordenar varias columnas en Pyspark DataFrame?

En este artículo, discutiremos cómo seleccionar y ordenar varias columnas de un marco de datos usando pyspark en Python. Para esto, estamos usando las funciones sort() y orderBy() junto con la función select().

Métodos utilizados

  • Seleccionar(): este método se usa para seleccionar la parte de las columnas del marco de datos y devolver una copia de ese marco de datos recién seleccionado.

Sintaxis: dataframe.select([‘columna1′,’columna2′,’columna n’].show()

  • sort(): este método se utiliza para ordenar los datos del marco de datos y devolver una copia de ese marco de datos recién ordenado. Esto ordena el marco de datos de forma ascendente de forma predeterminada.

Sintaxis: dataframe.sort([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).mostrar()

  • oderBy(): este método es similar a ordenar, que también se usa para ordenar el marco de datos. Esto ordena el marco de datos de forma ascendente de forma predeterminada.

Sintaxis: dataframe.orderBy([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).show()

Vamos a crear un marco de datos de muestra

Python3

# importing module
import pyspark
  
# importing sparksession from 
# pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"],
        ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"],
        ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]]
  
# specify column names
columns = ['student ID', 'student NAME', 'college']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
print("Actual data in dataframe")
# show dataframe
dataframe.show()

Producción:

Seleccionando múltiples columnas y ordenando usando el método sort()

Python3

# show dataframe by sorting the dataframe
# based on two columns in ascending
# order using sort() function
dataframe.select(['student ID', 'student NAME']
                ).sort(['student ID', 'student NAME'], 
                       ascending=True).show()

Producción:

Python3

# show dataframe by sorting the dataframe
# based on three columns in desc order
# using sort() function
dataframe.select(['student ID', 'student NAME', 'college']
                ).sort(['student ID', 'student NAME', 'college'],
                       ascending=False).show()

Producción:

Selección de varias columnas y orden mediante el método orderBy()

Python3

# show dataframe by sorting the dataframe
# based on three columns in desc
# order using orderBy() function
dataframe.select(['student ID', 'student NAME', 'college']
                ).orderBy(['student ID', 'student NAME', 'college'],
                          ascending=False).show()

Producción:

Python3

# show dataframe by sorting the dataframe
# based on two columns in asc
# order using orderBy() function
dataframe.select(['student NAME', 'college']
                ).orderBy(['student NAME', 'college'],
                          ascending=True).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *