Encuentre el valor mínimo, máximo y promedio de la columna PySpark Dataframe

En este artículo, vamos a encontrar el Máximo, el Mínimo y el Promedio de una columna en particular en el marco de datos de PySpark.

Para esto, usaremos la función agg(). Esta función

Sintaxis: dataframe.agg({‘column_name’: ‘avg/’max/min})

Dónde,

  • dataframe es el dataframe de entrada
  • column_name es la columna en el marco de datos

Creando DataFrame para demostración:

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql 
# module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app
# name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [["1", "sravan", "vignan", 67, 89],
        ["2", "ojaswi", "vvit", 78, 89],
        ["3", "rohith", "vvit", 100, 80],
        ["4", "sridevi", "vignan", 78, 80],
        ["1", "sravan", "vignan", 89, 98],
        ["5", "gnanesh", "iit", 94, 98]]
  
# specify column names
columns = ['student ID', 'student NAME',
           'college', 'subject 1', 'subject 2']
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
# display dataframe
dataframe.show()

Producción:

Encontrar el promedio

Ejemplo 1: programa de Python para encontrar el promedio de la columna del marco de datos

Python3

# find average of subjects column
dataframe.agg({'subject 1': 'avg'}).show()

Producción:

Ejemplo 2: obtener el promedio de varias columnas

Python3

# find average of multiple  column
dataframe.agg({'subject 1': 'avg',
               'student ID': 'avg',
               'subject 2': 'avg'}).show()

Producción:

Encontrar mínimo

Ejemplo 1: programa de Python para encontrar el valor mínimo en la columna del marco de datos.

Python3

# minimum value from student ID column
dataframe.agg({'student ID': 'min'}).show()

Producción:

Ejemplo 2: obtenga el valor mínimo de varias columnas

Python3

# minimum value from multiple column
dataframe.agg({'college': 'min',
               'student NAME': 'min',
               'student ID':'min'}).show()

Producción:

Encontrar el máximo

Ejemplo 1: programa de Python para encontrar el valor máximo en la columna del marco de datos

Python3

# maximum value from student ID column
dataframe.agg({'student ID': 'max'}).show()

Producción:

Ejemplo 2: obtenga el valor máximo de varias columnas

Python3

# maximum value from multiple column
dataframe.agg({'college': 'max',
               'student NAME': 'max',
               'student ID':'max'}).show()

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *