En este artículo, veremos el enfoque paso a paso para eliminar columnas en función de los nombres de columna o las condiciones de string en PySpark .
Implementación paso a paso
Paso 1: Crear CSV
En este paso, simplemente estamos creando un archivo CSV con tres filas y columnas.
CSV utilizado:
Paso 2: importar la biblioteca PySpark
En este paso, estamos importando los paquetes de PySpark para usar su funcionalidad usando la siguiente sintaxis:
import pyspark
Paso 3: Inicie una SparkSession
En este paso, simplemente estamos iniciando nuestra sesión de Spark usando la función SparkSession.builder.appName().
Python3
from pyspark.sql import SparkSession spark = SparkSession.builder.appName( 'GeeksForGeeks').getOrCreate() # You can use any appName print(spark)
Producción:
Paso 4: Lea nuestro CSV
Para leer nuestro CSV usamos spark.read.csv() . Tiene 2 parámetros:
- header = True [Establece los nombres de las columnas en la primera fila en el CSV]
- inferSchema = True [Establece los tipos de datos correctos para los elementos de la columna]
Python3
df = spark.read.csv('book1.csv', header=True, inferSchema=True) df.show()
Producción:
Paso 5: Soltar columna según el nombre de la columna
Finalmente, podemos ver lo simple que es soltar una columna según el nombre de la columna.
Para soltar una columna usamos DataFrame.drop() . Y como resultado, veremos que la columna Género ya no forma parte del marco de datos. ver
Python3
df = df.drop("Gender") df.show()
Publicación traducida automáticamente
Artículo escrito por ayushmankumar7 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA