En este artículo, vamos a saber cómo cambiar el nombre de una columna de PySpark Dataframe por índice usando Python. podemos cambiar el nombre de las columnas por índice usando los métodos Dataframe.withColumnRenamed() y Dataframe.columns[]. con la ayuda de Dataframe.columns[] obtenemos el nombre de la columna en el índice particular y luego reemplazamos este nombre con otro nombre usando el método withColumnRenamed().
Ejemplo 1: El siguiente programa es para renombrar una columna por su índice.
Python3
# importing required module import pyspark from pyspark.sql import SparkSession # creating sparksession and giving spark = SparkSession.builder.appName('sparkdf').getOrCreate() # demo data of college students data = [["Mukul", 23, "BBA"], ["Robin", 21, "BCA"], ["Rohit", 24, "MBA"], ["Suraj", 25, "MBA"], ["Krish", 22, "BCA"]] # giving column names of dataframe columns = ["Name", "Age", "Course"] # creating a dataframe dataframe = spark.createDataFrame(data, columns) # Rename dataframe df = dataframe.withColumnRenamed(dataframe.columns[0], "Student Name") # Original dataframe print("Original Dataframe") dataframe.show() # Dataframe after rename column print("Dataframe after rename 0 index column") df.show()
Producción:
Ejemplo 2: El siguiente programa es para cambiar el nombre de varias columnas por estos índices.
Python3
# importing module import pyspark # importing sparksession from # pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving # an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data data = [[123, "Sagar", "Rajveer", 22, "BBA"], [124, "Rajeev", "Mukesh", 23, "BBA"], [125, "Harish", "Parveen", 25, "BBA"], [126, "Gagan", "Rohit", 24, "BBA"], [127, "Rakesh", "Mayank", 25, "BBA"], [128, "Gnanesh", "Dleep", 26, "BBA"]] # specify column names columns = ['ID', 'Name', 'Father Name', 'Age', "Course", ] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data, columns) # display original dataframe print('Actual data in dataframe') dataframe.show() # Rename column df = dataframe.withColumnRenamed(dataframe.columns[1], "Student Name").withColumnRenamed( dataframe.columns[3], "Student Age") # display dataframe after rename column print('After rename 1 and 3 index column') df.show()
Producción:
Publicación traducida automáticamente
Artículo escrito por mukulsomukesh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA