En este artículo, aplicaremos OrderBy con varias columnas sobre el marco de datos pyspark en Python. Ordenar las filas significa organizar las filas en orden ascendente o descendente.
Método 1: usar Ordenar por()
La función OrderBy() se utiliza para ordenar un objeto por su valor de índice.
Sintaxis: dataframe.orderBy([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).show()
dónde,
- dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
- donde las columnas son la primera de las columnas
- ascending=True especifica el orden del marco de datos en orden creciente, ascendente=Falsespecifica el orden del marco de datos en orden decreciente
- ID del método show() utilizado para mostrar las columnas.
Vamos a crear un marco de datos de muestra
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"], ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]] # specify column names columns = ['student ID', 'student NAME', 'college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Aplicar OrderBy con múltiples columnas
Python3
# show dataframe by sorting the dataframe # based on two columns in ascending # order using orderby() function dataframe.orderBy(['student ID', 'student NAME'], ascending=True).show()
Producción:
Python3
# show dataframe by sorting the dataframe # based on two columns in descending # order using orderby() function dataframe.orderBy(['student ID', 'student NAME'], ascending=False).show()
Producción:
Método 2: Usar sort()
Toma el valor booleano como argumento para ordenar en orden ascendente o descendente.
Sintaxis: dataframe.sort([‘columna1′,’columna2′,’columna n’],ascending=True).show()
dónde,
- dataframe es el nombre del marco de datos creado a partir de las listas anidadas usando pyspark
- donde las columnas son la primera de las columnas
- ascending=True especifica el orden del dataframe en orden creciente,ascending=Falsespecifica el orden del dataframe en orden decreciente
- ID del método show() utilizado para mostrar las columnas.
Python3
# show dataframe by sorting the dataframe # based on two columns in descending order dataframe.sort(['college', 'student NAME'], ascending=False).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por gottumukkalabobby y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA