¿Cómo crear un marco de datos PySpark con un esquema?

En este artículo, discutiremos cómo crear el marco de datos con el esquema usando PySpark. En palabras simples, el esquema es la estructura de un conjunto de datos o marco de datos.

Funciones utilizadas:

Función Descripción
SparkSession El punto de entrada a Spark SQL.
SparkSession.constructor() Da acceso a la API de Builder que usamos para configurar la sesión.
SparkSession.master (local) Establece la URL principal de Spark para conectarse y ejecutarse localmente.
SparkSession.nombre de la aplicación() Establece el nombre de la aplicación.
SparkSession.getOrCreate() Si no hay una sesión de Spark existente, crea una nueva; de lo contrario, usa la existente.

Para crear el marco de datos con el esquema que estamos usando:

Sintaxis: spark.createDataframe(datos,esquema)

Parámetro:

  • datos: lista de valores en los que se crea el marco de datos.
  • esquema: es la estructura del conjunto de datos o la lista de nombres de columna.

donde chispa es el objeto SparkSession.

Ejemplo 1:

  • En el siguiente código, estamos creando un nuevo objeto Spark Session llamado ‘spark’.
  • Luego, creamos los valores de datos y los almacenamos en la variable llamada ‘datos’ para crear el marco de datos.
  • Luego definimos el esquema para el marco de datos y lo almacenamos en la variable llamada ‘schm’. 
  • Luego, hemos creado el marco de datos mediante el uso de la función createDataframe() en la que hemos pasado los datos y el esquema para el marco de datos.
  • Como el marco de datos se crea para visualizar, usamos la función show().

Python

# importing necessary libraries
from pyspark.sql import SparkSession
  
# function to create new SparkSession
def create_session():
  spk = SparkSession.builder \
      .master("local") \
      .appName("Geek_examples.com") \
      .getOrCreate()
  return spk
  
# main function
if __name__ == "__main__":
  
  # calling function to create SparkSession
  spark = create_session()
  
  #  creating data for creating dataframe 
  data = [
    ("Shivansh","M",50000,2),
    ("Vaishali","F",45000,3),
    ("Karan","M",47000,2),
    ("Satyam","M",40000,4),
    ("Anupma","F",35000,5)
  ]
  
  # giving schema
  schm=["Name of employee","Gender","Salary","Years of experience"]
  
  # creating dataframe using createDataFrame()
  # function in which pass data and schema
  df = spark.createDataFrame(data,schema=schm)
  
  # visualizing the dataframe using show() function
  df.show()

Producción:

Ejemplo 2:

En el siguiente código, estamos creando el marco de datos pasando datos y esquemas en la función createDataframe() directamente.

Python

# importing necessary libraries
from pyspark.sql import SparkSession
  
# function to create new SparkSession
def create_session():
  spk = SparkSession.builder \
      .master("local") \
      .appName("Geek_examples.com") \
      .getOrCreate()
  return spk
  
# main function
if __name__ == "__main__":
  
  # calling function to create SparkSession
  spark = create_session()
  
  # creating dataframe using createDataFrame() 
  # function in which pass data and schema
  df = spark.createDataFrame([
    ("Mazda RX4",21,4,4),
    ("Hornet 4 Drive",22,3,2),
    ("Merc 240D",25,4,2),
    ("Lotus Europa",31,5,2),
    ("Ferrari Dino",20,5,6),
    ("Volvo 142E",22,4,2)
  ],["Car Name","mgp","gear","carb"])
  
  # visualizing the dataframe using show() function
  df.show()

Producción:

Publicación traducida automáticamente

Artículo escrito por srishivansh5404 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *