Python PySpark: suelte columnas según los nombres de columna o la condición de string

En este artículo, veremos el enfoque paso a paso para eliminar columnas en función de los nombres de columna o las condiciones de string en PySpark .

Implementación paso a paso

Paso 1: Crear CSV

En este paso, simplemente estamos creando un archivo CSV con tres filas y columnas.

CSV utilizado:

 

Paso 2: importar la biblioteca PySpark

En este paso, estamos importando los paquetes de PySpark para usar su funcionalidad usando la siguiente sintaxis:

import pyspark

Paso 3: Inicie una SparkSession

En este paso, simplemente estamos iniciando nuestra sesión de Spark usando la función SparkSession.builder.appName().

Python3

from pyspark.sql import SparkSession
 
spark = SparkSession.builder.appName(
    'GeeksForGeeks').getOrCreate()  # You can use any appName
print(spark)

Producción:

 

Paso 4: Lea nuestro CSV

Para leer nuestro CSV usamos spark.read.csv() . Tiene 2 parámetros: 

  • header = True [Establece los nombres de las columnas en la primera fila en el CSV]
  • inferSchema = True [Establece los tipos de datos correctos para los elementos de la columna]

Python3

df = spark.read.csv('book1.csv', header=True, inferSchema=True)
df.show()

Producción:

 

Paso 5: Soltar columna según el nombre de la columna

Finalmente, podemos ver lo simple que es soltar una columna según el nombre de la columna. 

Para soltar una columna usamos DataFrame.drop() . Y como resultado, veremos que la columna Género ya no forma parte del marco de datos. ver

Python3

df = df.drop("Gender")
df.show()

 

Publicación traducida automáticamente

Artículo escrito por ayushmankumar7 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *