En este artículo, vamos a discutir cómo crear un marco de datos de Pyspark a partir de una lista.
Para hacer esto, primero cree una lista de datos y una lista de nombres de columnas. Luego pase estos datos comprimidos al método spark.createDataFrame(). Este método se utiliza para crear DataFrame. El atributo de datos será la lista de datos y el atributo de columnas será la lista de nombres.
marco de datos = chispa.createDataFrame (datos, columnas)
Ejemplo 1: código de Python para crear un marco de datos de estudiante de Pyspark a partir de dos listas.
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of college data with two lists data = [["java", "dbms", "python"], ["OOPS", "SQL", "Machine Learning"]] # giving column names of dataframe columns = ["Subject 1", "Subject 2", "Subject 3"] # creating a dataframe dataframe = spark.createDataFrame(data, columns) # show data frame dataframe.show()
Producción:
Ejemplo 2: crear un marco de datos a partir de 4 listas
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of college data with two lists data = [["node.js", "dbms", "integration"], ["jsp", "SQL", "trigonometry"], ["php", "oracle", "statistics"], [".net", "db2", "Machine Learning"]] # giving column names of dataframe columns = ["Web Technologies", "Data bases", "Maths"] # creating a dataframe dataframe = spark.createDataFrame(data, columns) # show data frame dataframe.show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA