En este artículo, vamos a encontrar el Máximo, el Mínimo y el Promedio de una columna en particular en el marco de datos de PySpark.
Para esto, usaremos la función agg(). Esta función
Sintaxis: dataframe.agg({‘column_name’: ‘avg/’max/min})
Dónde,
- dataframe es el dataframe de entrada
- column_name es la columna en el marco de datos
Creando DataFrame para demostración:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql # module from pyspark.sql import SparkSession # creating sparksession and giving an app # name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan", 67, 89], ["2", "ojaswi", "vvit", 78, 89], ["3", "rohith", "vvit", 100, 80], ["4", "sridevi", "vignan", 78, 80], ["1", "sravan", "vignan", 89, 98], ["5", "gnanesh", "iit", 94, 98]] # specify column names columns = ['student ID', 'student NAME', 'college', 'subject 1', 'subject 2'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) # display dataframe dataframe.show()
Producción:
Encontrar el promedio
Ejemplo 1: programa de Python para encontrar el promedio de la columna del marco de datos
Python3
# find average of subjects column dataframe.agg({'subject 1': 'avg'}).show()
Producción:
Ejemplo 2: obtener el promedio de varias columnas
Python3
# find average of multiple column dataframe.agg({'subject 1': 'avg', 'student ID': 'avg', 'subject 2': 'avg'}).show()
Producción:
Encontrar mínimo
Ejemplo 1: programa de Python para encontrar el valor mínimo en la columna del marco de datos.
Python3
# minimum value from student ID column dataframe.agg({'student ID': 'min'}).show()
Producción:
Ejemplo 2: obtenga el valor mínimo de varias columnas
Python3
# minimum value from multiple column dataframe.agg({'college': 'min', 'student NAME': 'min', 'student ID':'min'}).show()
Producción:
Encontrar el máximo
Ejemplo 1: programa de Python para encontrar el valor máximo en la columna del marco de datos
Python3
# maximum value from student ID column dataframe.agg({'student ID': 'max'}).show()
Producción:
Ejemplo 2: obtenga el valor máximo de varias columnas
Python3
# maximum value from multiple column dataframe.agg({'college': 'max', 'student NAME': 'max', 'student ID':'max'}).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA