En este artículo, discutiremos cómo seleccionar y ordenar varias columnas de un marco de datos usando pyspark en Python. Para esto, estamos usando las funciones sort() y orderBy() junto con la función select().
Métodos utilizados
- Seleccionar(): este método se usa para seleccionar la parte de las columnas del marco de datos y devolver una copia de ese marco de datos recién seleccionado.
Sintaxis: dataframe.select([‘columna1′,’columna2′,’columna n’].show()
- sort(): este método se utiliza para ordenar los datos del marco de datos y devolver una copia de ese marco de datos recién ordenado. Esto ordena el marco de datos de forma ascendente de forma predeterminada.
Sintaxis: dataframe.sort([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).mostrar()
- oderBy(): este método es similar a ordenar, que también se usa para ordenar el marco de datos. Esto ordena el marco de datos de forma ascendente de forma predeterminada.
Sintaxis: dataframe.orderBy([‘columna1′,’columna2′,’columna n’], ascendente=Verdadero).show()
Vamos a crear un marco de datos de muestra
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan"], ["2", "ojaswi", "vvit"], ["3", "rohith", "vvit"], ["4", "sridevi", "vignan"], ["1", "sravan", "vignan"], ["5", "gnanesh", "iit"]] # specify column names columns = ['student ID', 'student NAME', 'college'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) print("Actual data in dataframe") # show dataframe dataframe.show()
Producción:
Seleccionando múltiples columnas y ordenando usando el método sort()
Python3
# show dataframe by sorting the dataframe # based on two columns in ascending # order using sort() function dataframe.select(['student ID', 'student NAME'] ).sort(['student ID', 'student NAME'], ascending=True).show()
Producción:
Python3
# show dataframe by sorting the dataframe # based on three columns in desc order # using sort() function dataframe.select(['student ID', 'student NAME', 'college'] ).sort(['student ID', 'student NAME', 'college'], ascending=False).show()
Producción:
Selección de varias columnas y orden mediante el método orderBy()
Python3
# show dataframe by sorting the dataframe # based on three columns in desc # order using orderBy() function dataframe.select(['student ID', 'student NAME', 'college'] ).orderBy(['student ID', 'student NAME', 'college'], ascending=False).show()
Producción:
Python3
# show dataframe by sorting the dataframe # based on two columns in asc # order using orderBy() function dataframe.select(['student NAME', 'college'] ).orderBy(['student NAME', 'college'], ascending=True).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA