En este artículo, vamos a encontrar la suma de la columna del marco de datos de PySpark en Python. Vamos a encontrar la suma en una columna usando la función agg().
Vamos a crear un marco de datos de muestra.
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan", 67, 89], ["2", "ojaswi", "vvit", 78, 89], ["3", "rohith", "vvit", 100, 80], ["4", "sridevi", "vignan", 78, 80], ["1", "sravan", "vignan", 89, 98], ["5", "gnanesh", "iit", 94, 98]] # specify column names columns = ['student ID', 'student NAME', 'college', 'subject 1', 'subject 2'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) # display dataframe dataframe.show()
Producción:
Usando el método agg():
El método agg() devuelve la suma agregada de la columna de parámetros pasada.
Sintaxis:
dataframe.agg({'column_name': 'sum'})
Dónde,
- El marco de datos es el marco de datos de entrada
- column_name es la columna en el marco de datos
- La suma es la función para devolver la suma.
Ejemplo 1: programa de Python para encontrar la suma en la columna del marco de datos
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan", 67, 89], ["2", "ojaswi", "vvit", 78, 89], ["3", "rohith", "vvit", 100, 80], ["4", "sridevi", "vignan", 78, 80], ["1", "sravan", "vignan", 89, 98], ["5", "gnanesh", "iit", 94, 98]] # specify column names columns = ['student ID', 'student NAME', 'college', 'subject 1', 'subject 2'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) # find sum of subjects column dataframe.agg({'subject 1': 'sum'}).show()
Producción:
Ejemplo 2: obtener el valor de la suma de varias columnas
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [["1", "sravan", "vignan", 67, 89], ["2", "ojaswi", "vvit", 78, 89], ["3", "rohith", "vvit", 100, 80], ["4", "sridevi", "vignan", 78, 80], ["1", "sravan", "vignan", 89, 98], ["5", "gnanesh", "iit", 94, 98]] # specify column names columns = ['student ID', 'student NAME', 'college', 'subject 1', 'subject 2'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) # find sum of multiple column dataframe.agg({'subject 1': 'sum', 'student ID': 'sum', 'subject 2': 'sum'}).show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA