Soltar filas que contienen un valor específico en el marco de datos de PySpark

En este artículo, vamos a soltar las filas con un valor específico en el marco de datos pyspark. Creando dataframe para demostración: Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession and giving an app name spark = SparkSession.builder.appName(‘sparkdf’).getOrCreate()    # list  of … Continue reading «Soltar filas que contienen un valor específico en el marco de datos de PySpark»

¿Cómo obtener un valor del objeto Row en PySpark Dataframe?

En este artículo, vamos a aprender cómo obtener un valor del objeto Row en PySpark DataFrame. Método 1: Usar el método mágico __getitem()__ Crearemos un Spark DataFrame con al menos una fila usando createDataFrame(). Luego obtenemos un objeto Row de una lista de objetos de fila devueltos por DataFrame.collect(). Luego usamos el método mágico __getitem()__ … Continue reading «¿Cómo obtener un valor del objeto Row en PySpark Dataframe?»

Múltiples criterios para la agregación en PySpark Dataframe

En este artículo, discutiremos cómo hacer la agregación de múltiples criterios en PySpark Dataframe. Trama de datos en uso: En PySpark, groupBy() se usa para recopilar datos idénticos en grupos en PySpark DataFrame y realizar funciones agregadas en los datos agrupados. Entonces, con esto podemos hacer múltiples agregaciones a la vez. Sintaxis : dataframe.groupBy(‘column_name_group’).agg(funciones) dónde,  … Continue reading «Múltiples criterios para la agregación en PySpark Dataframe»

Diferencia entre Spark DataFrame y Pandas DataFrame

Dataframe representa una tabla de datos con filas y columnas, los conceptos de Dataframe nunca cambian en ningún lenguaje de programación, sin embargo, Spark Dataframe y Pandas Dataframe son bastante diferentes. En este artículo, vamos a ver la diferencia entre el marco de datos de Spark y el marco de datos de Pandas. Marco de … Continue reading «Diferencia entre Spark DataFrame y Pandas DataFrame»

¿Cómo obtener una substring de una columna en PySpark Dataframe?

En este artículo, veremos cómo obtener la substring de la columna PySpark Dataframe y cómo crear la nueva columna y colocar la substring en esa columna recién creada. Podemos obtener la substring de la columna usando la función substring() y substr() . Sintaxis: substring(str,pos,len) df.col_name.substr(inicio, longitud) Parámetro: str: puede ser una string o el nombre … Continue reading «¿Cómo obtener una substring de una columna en PySpark Dataframe?»

Filtrar una fila en PySpark DataFrame según los valores coincidentes de una lista

En este artículo, vamos a filtrar las filas en el marco de datos según los valores coincidentes en la lista usando isin en el marco de datos de Pyspark. isin(): esto se usa para encontrar los elementos contenidos en un marco de datos dado, tomará los elementos y hará que los elementos coincidan con los … Continue reading «Filtrar una fila en PySpark DataFrame según los valores coincidentes de una lista»

Agregar dos columnas a PySpark DataFrame existente usando withColumn

En este artículo, veremos cómo agregar dos columnas al marco de datos Pyspark existente usando WithColumns.  WithColumns se usa para cambiar el valor, convertir el tipo de datos de una columna existente, crear una nueva columna y mucho más. Sintaxis: df.withColumn(colName, col) Devuelve: una nueva :class:`DataFrame` agregando una columna o reemplazando la columna existente que … Continue reading «Agregar dos columnas a PySpark DataFrame existente usando withColumn»

¿Cómo verificar si PySpark DataFrame está vacío?

En este artículo, vamos a verificar si Pyspark DataFrame o Dataset está vacío o no. Al principio, vamos a crear un marco de datos Python3 # import modules from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType    # defining schema schema = StructType([     StructField(‘COUNTRY’, StringType(), True),     StructField(‘CITY’, StringType(), True),     StructField(‘CAPITAL’, StringType(), True) ]) … Continue reading «¿Cómo verificar si PySpark DataFrame está vacío?»

¿Cómo agregar múltiples columnas en PySpark Dataframes?

En este artículo, veremos diferentes formas de agregar columnas múltiples en marcos de datos de PySpark.  Vamos a crear un marco de datos de muestra para la demostración: Conjunto de datos utilizado: Cricket_data_set_odi Python3 # import pandas to read json file import pandas as pd    # importing module import pyspark    # importing sparksession … Continue reading «¿Cómo agregar múltiples columnas en PySpark Dataframes?»

PySpark: ordena el marco de datos por varias columnas

En este artículo, veremos cómo ordenar el marco de datos de PySpark por varias columnas. Se puede hacer de estas formas: Usando ordenar() Usando ordenar por() Creando Dataframe para demostración: Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession and giving an app … Continue reading «PySpark: ordena el marco de datos por varias columnas»