Marco de datos de Pyspark: asigna strings a números

En este artículo, vamos a ver cómo convertir strings de mapas a números. Creando dataframe para demostración: Aquí estamos creando una fila de datos para los nombres de las universidades y luego pasamos el método createdataframe() y luego mostramos el marco de datos. Python3 # importing module import pyspark   # importing sparksession from pyspark.sql … Continue reading «Marco de datos de Pyspark: asigna strings a números»

PySpark DataFrame – Dónde filtrar

En este artículo, vamos a ver dónde filtrar en PySpark Dataframe. Where() es un método utilizado para filtrar las filas de DataFrame según la condición dada. El método where() es un alias para el método filter(). Ambos métodos funcionan exactamente igual. También podemos aplicar condiciones únicas y múltiples en las columnas de DataFrame usando el … Continue reading «PySpark DataFrame – Dónde filtrar»

Pyspark: agregación en múltiples columnas

En este artículo, discutiremos cómo realizar la agregación en varias columnas en Pyspark usando Python. Podemos hacer esto usando la función Groupby() Vamos a crear un marco de datos para la demostración: Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession and giving … Continue reading «Pyspark: agregación en múltiples columnas»

Pyspark: filtre el marco de datos en función de múltiples condiciones

En este artículo, veremos cómo filtrar el marco de datos en función de múltiples condiciones. Vamos a crear un marco de datos para la demostración: Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # creating sparksession and giving an app name spark = SparkSession.builder.appName(‘sparkdf’).getOrCreate()    … Continue reading «Pyspark: filtre el marco de datos en función de múltiples condiciones»

PySpark Count Distinto de DataFrame

En este artículo, discutiremos cómo contar distintos valores presentes en Pyspark DataFrame.  En Pyspark, hay dos formas de obtener el recuento de valores distintos. Podemos usar funciones distintivas() y conteo() de DataFrame para obtener el conteo distinto de PySpark DataFrame. Otra forma es usar la función SQL countDistinct() que proporcionará el recuento de valores distintos … Continue reading «PySpark Count Distinto de DataFrame»

Agregue una nueva columna con valor predeterminado en el marco de datos de PySpark

En este artículo, veremos cómo agregar una nueva columna con un valor predeterminado en PySpark Dataframe. Las tres formas de agregar una columna a PandPySpark como DataFrame con valor predeterminado. Usando pyspark.sql.DataFrame.withColumn(colName, col) Usando pyspark.sql.DataFrame.select(*columnas) Usando pyspark.sql.SparkSession.sql(sqlQuery) Método 1: Usar pyspark.sql.DataFrame.withColumn(colName, col) Agrega una columna o reemplaza la columna existente que tiene el mismo nombre … Continue reading «Agregue una nueva columna con valor predeterminado en el marco de datos de PySpark»

¿Cómo nombrar columnas agregadas en PySpark DataFrame?

En este artículo, veremos cómo nombrar columnas agregadas en el marco de datos de Pyspark. Podemos hacer esto usando un alias después de groupBy(). groupBy() se usa para unir dos columnas y se usa para agregar las columnas, el alias se usa para cambiar el nombre de la nueva columna que se forma al agrupar … Continue reading «¿Cómo nombrar columnas agregadas en PySpark DataFrame?»

PySpark: crea un marco de datos a partir de una lista

En este artículo, vamos a discutir cómo crear un marco de datos de Pyspark a partir de una lista.  Para hacer esto, primero cree una lista de datos y una lista de nombres de columnas. Luego pase estos datos comprimidos al método spark.createDataFrame(). Este método se utiliza para crear DataFrame. El atributo de datos será … Continue reading «PySpark: crea un marco de datos a partir de una lista»

PySpark DataFrame: seleccione todo excepto uno o un conjunto de columnas

En este artículo, vamos a extraer todas las columnas excepto un conjunto de columnas o una columna del marco de datos de Pyspark. Para ello, utilizaremos las funciones select(), drop(). Pero primero, creemos Dataframe para demostración. Python3 # importing module import pyspark    # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession    # … Continue reading «PySpark DataFrame: seleccione todo excepto uno o un conjunto de columnas»

Muestreo aleatorio simple y muestreo estratificado en PySpark

En este artículo, analizaremos el muestreo aleatorio simple y el muestreo estratificado en PySpark. Muestreo aleatorio simple: En el muestreo aleatorio simple, cada elemento no se obtiene en un orden particular. En otras palabras, se obtienen aleatoriamente. Es por eso que los elementos tienen la misma probabilidad de ser seleccionados. En palabras simples, el muestreo … Continue reading «Muestreo aleatorio simple y muestreo estratificado en PySpark»