En este artículo, discutiremos cómo crear un marco de datos Pyspark a partir de varias listas.
Acercarse
- Cree datos de varias listas y asigne nombres de columna en otra lista. Entonces, para hacer nuestra tarea usaremos el método zip.
zip(lista1, lista2,., lista n)
- Pase estos datos comprimidos al método spark.createDataFrame()
marco de datos = chispa.createDataFrame (datos, columnas)
Ejemplos
Ejemplo 1: programa de Python para crear dos listas y crear el marco de datos usando estas dos listas
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of college data with dictionary # with two lists in three elements each data = [1, 2, 3] data1 = ["sravan", "bobby", "ojaswi"] # specify column names columns = ['ID', 'NAME'] # creating a dataframe by zipping the two lists dataframe = spark.createDataFrame(zip(data, data1), columns) # show data frame dataframe.show()
Producción:
Ejemplo 2: programa Python para crear 4 listas y crear el marco de datos
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of college data with dictionary # with four lists in three elements each data = [1, 2, 3] data1 = ["sravan", "bobby", "ojaswi"] data2 = ["iit-k", "iit-mumbai", "vignan university"] data3 = ["AP", "TS", "UP"] # specify column names columns = ['ID', 'NAME', 'COLLEGE', 'ADDRESS'] # creating a dataframe by zipping # the two lists dataframe = spark.createDataFrame( zip(data, data1, data2, data3), columns) # show data frame dataframe.show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA