Tipos de combinación de PySpark: combinación de dos marcos de datos

En este artículo, vamos a ver cómo unir dos marcos de datos en Pyspark usando Python. Join se usa para combinar dos o más marcos de datos basados ​​en columnas en el marco de datos. Sintaxis : dataframe1.join(dataframe2,dataframe1.column_name == dataframe2.column_name,”tipo”)  dónde, dataframe1 es el primer marco de datos dataframe2 es el segundo marco de datos … Continue reading «Tipos de combinación de PySpark: combinación de dos marcos de datos»

PySpark DataFrame: soltar filas con valores NULL o ninguno

A veces, mientras manejamos datos dentro de un marco de datos, podemos obtener valores nulos. Para limpiar el conjunto de datos, debemos eliminar todos los valores nulos en el marco de datos. Entonces, en este artículo, aprenderemos cómo colocar filas con valores NULL o None en PySpark DataFrame.  Función utilizada  En pyspark, la función drop() … Continue reading «PySpark DataFrame: soltar filas con valores NULL o ninguno»

Pyspark: divide múltiples columnas de array en filas

Supongamos que tenemos un DataFrame que contiene columnas que tienen diferentes tipos de valores como strings, enteros, etc. y, a veces, los datos de la columna también están en formato de array. Trabajar con la array a veces es difícil y, para eliminar la dificultad, queríamos dividir los datos de la array en filas.  Para … Continue reading «Pyspark: divide múltiples columnas de array en filas»

PySpark: divide el marco de datos en el mismo número de filas

Cuando hay un gran conjunto de datos, es mejor dividirlos en partes iguales y luego procesar cada marco de datos individualmente. Esto es posible si la operación en el marco de datos es independiente de las filas. Cada fragmento o marco de datos igualmente dividido puede procesarse en paralelo haciendo un uso más eficiente de … Continue reading «PySpark: divide el marco de datos en el mismo número de filas»

Mostrar valores de columna distintos en el marco de datos de PySpark

En este artículo, mostraremos los distintos valores de columna del marco de datos usando pyspark en Python. Para esto, estamos usando funciones distintivas() y dropDuplicates() junto con la función select(). Vamos a crear un marco de datos de muestra. Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import … Continue reading «Mostrar valores de columna distintos en el marco de datos de PySpark»

¿Cómo verificar una substring en un marco de datos PySpark?

En este artículo, veremos cómo verificar una substring en el marco de datos de PySpark. La substring es una secuencia continua de caracteres dentro de un tamaño de string más grande. Por ejemplo, «aprendiendo pyspark» es una substring de «Estoy aprendiendo pyspark de GeeksForGeeks». Veamos las diferentes formas en que podemos encontrar una substring de … Continue reading «¿Cómo verificar una substring en un marco de datos PySpark?»

¿Cómo crear un marco de datos PySpark a partir de varias listas?

En este artículo, discutiremos cómo crear un marco de datos Pyspark a partir de varias listas.  Acercarse Cree datos de varias listas y asigne nombres de columna en otra lista. Entonces, para hacer nuestra tarea usaremos el método zip. zip(lista1, lista2,., lista n) Pase estos datos comprimidos al método spark.createDataFrame() marco de datos = chispa.createDataFrame … Continue reading «¿Cómo crear un marco de datos PySpark a partir de varias listas?»

¿Cómo eliminar todas las columnas con valores nulos en un PySpark DataFrame?

La clase pyspark.sql.DataFrameNaFunctions en PySpark tiene muchos métodos para manejar valores NULL/Ninguno, uno de los cuales es la función drop(), que se usa para eliminar/eliminar filas que contienen valores NULL en columnas DataFrame. También puede usar df.dropna(), como se muestra en este artículo. Puede soltar todas las filas en cualquiera, todas, columnas únicas, múltiples y … Continue reading «¿Cómo eliminar todas las columnas con valores nulos en un PySpark DataFrame?»

Eliminación de columnas duplicadas después de unirse a DataFrame en PySpark

En este artículo, discutiremos cómo eliminar columnas duplicadas después de una unión de DataFrame en PySpark. Cree el primer marco de datos para la demostración: Python3 # Importing necessary libraries from pyspark.sql import SparkSession   # Create a spark session spark = SparkSession.builder.appName(‘pyspark \ – example join’).getOrCreate()   # Create data in dataframe data = … Continue reading «Eliminación de columnas duplicadas después de unirse a DataFrame en PySpark»

Filtrar columnas de PySpark DataFrame con ninguno o valores nulos

Muchas veces, mientras se trabaja en el marco de datos de PySpark SQL, los marcos de datos contienen muchos valores NULL/Ninguno en las columnas, en muchos de los casos, antes de realizar cualquiera de las operaciones del marco de datos, primero tenemos que manejar los valores NULL/Ninguno para obtener el deseado. resultado o salida, tenemos … Continue reading «Filtrar columnas de PySpark DataFrame con ninguno o valores nulos»