Pyspark – Convertir JSON a DataFrame

En este artículo, vamos a convertir JSON String a DataFrame en Pyspark.

Método 1: Usar read_json()

Podemos leer archivos JSON usando pandas.read_json. Este método se usa básicamente para leer archivos JSON a través de pandas.

Sintaxis: pandas.read_json(“nombre_de_archivo.json”)

Aquí vamos a usar este archivo JSON para la demostración:

Código:

Python3

# import pandas to read json file
import pandas as pd
  
# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
  
# creating a dataframe from the json file named student
dataframe = spark.createDataFrame(pd.read_json('student.json'))
  
# display the dataframe (Pyspark dataframe)
dataframe.show()

Producción:

Método 2: Usar spark.read.json()

Esto se usa para leer datos json de un archivo y mostrar los datos en forma de marco de datos

Sintaxis: spark.read.json(‘file_name.json’)

Archivo JSON para demostración:

Código:

Python3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# read json file
data = spark.read.json('college.json')
  
# display json data
data.show()

Producción:

Publicación traducida automáticamente

Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *