En este artículo, vamos a convertir JSON String a DataFrame en Pyspark.
Método 1: Usar read_json()
Podemos leer archivos JSON usando pandas.read_json. Este método se usa básicamente para leer archivos JSON a través de pandas.
Sintaxis: pandas.read_json(“nombre_de_archivo.json”)
Aquí vamos a usar este archivo JSON para la demostración:
Código:
Python3
# import pandas to read json file import pandas as pd # importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # creating a dataframe from the json file named student dataframe = spark.createDataFrame(pd.read_json('student.json')) # display the dataframe (Pyspark dataframe) dataframe.show()
Producción:
Método 2: Usar spark.read.json()
Esto se usa para leer datos json de un archivo y mostrar los datos en forma de marco de datos
Sintaxis: spark.read.json(‘file_name.json’)
Archivo JSON para demostración:
Código:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # read json file data = spark.read.json('college.json') # display json data data.show()
Producción:
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA