¿Cómo recorrer cada fila de dataFrame en PySpark?

En este artículo, veremos cómo recorrer cada fila de Dataframe en PySpark. Recorrer cada fila nos ayuda a realizar operaciones complejas en el RDD o Dataframe. Creando Dataframe para demostración: Python3 # importing necessary libraries import pyspark from pyspark.sql import SparkSession   # function to create new SparkSession def create_session():     spk = SparkSession.builder \         .master(«local») … Continue reading «¿Cómo recorrer cada fila de dataFrame en PySpark?»

Soltar filas en PySpark DataFrame con condición

En este artículo, vamos a colocar las filas en el marco de datos de PySpark. Consideraremos las condiciones más comunes, como eliminar filas con valores nulos, eliminar filas duplicadas, etc. Todas estas condiciones usan diferentes funciones y las discutiremos en detalle. Cubriremos los siguientes temas: Suelte filas con condición usando las palabras clave where() y … Continue reading «Soltar filas en PySpark DataFrame con condición»

Crear marco de datos PySpark a partir de un diccionario anidado

En este artículo, vamos a discutir la creación del dataframe de Pyspark a partir del diccionario anidado.  Usaremos el método createDataFrame() de pyspark para crear DataFrame. Para esto, usaremos una lista de diccionarios anidados y extraeremos el par como clave y valor. Seleccione los pares de clave y valor mencionando la función items() del diccionario … Continue reading «Crear marco de datos PySpark a partir de un diccionario anidado»

PySpark: combine dos marcos de datos con diferentes columnas o esquemas

En este artículo, discutiremos cómo fusionar dos marcos de datos con diferentes cantidades de columnas o esquemas en PySpark en Python. Consideremos el primer marco de datos: Aquí tenemos 3 columnas denominadas id, nombre y dirección para una mejor demostración. Python3 # importing module import pyspark    # import when and lit function from pyspark.sql.functions … Continue reading «PySpark: combine dos marcos de datos con diferentes columnas o esquemas»

¿Cómo agregar una nueva columna a un PySpark DataFrame?

En este artículo, discutiremos cómo agregar una nueva columna a PySpark Dataframe. Cree el primer marco de datos para la demostración: Aquí, crearemos el marco de datos de muestra que usaremos más adelante para demostrar el propósito del enfoque. Python3 # importing module import pyspark   # importing sparksession from pyspark.sql module from pyspark.sql import … Continue reading «¿Cómo agregar una nueva columna a un PySpark DataFrame?»

Seleccionar columnas en el marco de datos de PySpark

En este artículo, aprenderemos cómo seleccionar columnas en el marco de datos de PySpark. Función utilizada: En PySpark podemos seleccionar columnas usando la función select() . La función select() nos permite seleccionar una o varias columnas en diferentes formatos.  Sintaxis: dataframe_name.select( column_names ) Nota: estamos especificando nuestra ruta al directorio de chispa usando la función … Continue reading «Seleccionar columnas en el marco de datos de PySpark»

Seleccione columnas que satisfagan una condición en PySpark

En este artículo, vamos a seleccionar columnas en el marco de datos según la condición usando la función where() en Pyspark.  Vamos a crear un marco de datos de muestra con datos de empleados. Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession … Continue reading «Seleccione columnas que satisfagan una condición en PySpark»

PySpark: extracción de un solo valor de DataFrame

En este artículo, vamos a extraer un solo valor de las columnas del marco de datos de pyspark. Para hacer esto usaremos las funciones first() y head(). Valor único significa solo un valor, podemos extraer este valor en función del nombre de la columna Sintaxis :  dataframe.first()[‘nombre de columna’] Dataframe.head()[‘Índice’] Dónde, el marco de datos … Continue reading «PySpark: extracción de un solo valor de DataFrame»

Cómo cambiar el nombre de varias columnas de PySpark DataFrame

En este artículo, discutiremos cómo cambiar el nombre de varias columnas en PySpark Dataframe. Para ello utilizaremos las funciones withColumnRenamed() y toDF() . Creando Dataframe para demostración: Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession and giving an app name spark = … Continue reading «Cómo cambiar el nombre de varias columnas de PySpark DataFrame»

Crear PySpark DataFrame a partir de la lista de tuplas

En este artículo, vamos a discutir la creación de un marco de datos Pyspark a partir de una lista de tuplas.  Para hacer esto, usaremos el método createDataFrame() de pyspark. Este método crea un dataframe a partir de RDD, list o Pandas Dataframe. Aquí los datos serán la lista de tuplas y las columnas serán … Continue reading «Crear PySpark DataFrame a partir de la lista de tuplas»