¿Cómo cambiar el nombre de una columna de marco de datos PySpark por índice?

En este artículo, vamos a saber cómo cambiar el nombre de una columna de PySpark Dataframe por índice usando Python. podemos cambiar el nombre de las columnas por índice usando los métodos Dataframe.withColumnRenamed() y Dataframe.columns[]. con la ayuda de Dataframe.columns[] obtenemos el nombre de la columna en el índice particular y luego reemplazamos este nombre con otro nombre usando el método withColumnRenamed().

Ejemplo 1: El siguiente programa es para renombrar una columna por su índice.   

Python3

# importing required module
import pyspark
from pyspark.sql import SparkSession
  
# creating sparksession and giving
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# demo data of college students
data = [["Mukul", 23, "BBA"],
        ["Robin", 21, "BCA"],
        ["Rohit", 24, "MBA"],
        ["Suraj", 25, "MBA"],
        ["Krish", 22, "BCA"]]
  
# giving column names of dataframe
columns = ["Name", "Age", "Course"]
  
# creating a dataframe
dataframe = spark.createDataFrame(data, columns)
  
# Rename dataframe
df = dataframe.withColumnRenamed(dataframe.columns[0],
                                 "Student Name")
  
# Original dataframe
print("Original Dataframe")
dataframe.show()
  
# Dataframe after rename column
print("Dataframe after rename 0 index column")
df.show()

Producción:

Ejemplo 2: El siguiente programa es para cambiar el nombre de varias columnas por estos índices.

Python3

# importing module
import pyspark
  
# importing sparksession from
# pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving
# an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# list  of students  data
data = [[123, "Sagar",   "Rajveer", 22, "BBA"],
        [124, "Rajeev",  "Mukesh",  23, "BBA"],
        [125, "Harish",  "Parveen", 25, "BBA"],
        [126, "Gagan",   "Rohit",   24, "BBA"],
        [127, "Rakesh",  "Mayank",  25, "BBA"],
        [128, "Gnanesh", "Dleep",   26, "BBA"]]
  
# specify column names
columns = ['ID', 'Name', 'Father Name',
           'Age', "Course", ]
  
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
  
# display original dataframe
print('Actual data in dataframe')
dataframe.show()
  
# Rename column
df = dataframe.withColumnRenamed(dataframe.columns[1], 
                                 "Student Name").withColumnRenamed(
    dataframe.columns[3], "Student Age")
  
# display dataframe after rename column
print('After rename 1 and 3 index column')
df.show()

Producción:

Publicación traducida automáticamente

Artículo escrito por mukulsomukesh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *