Python-Pyspark – Página 4

Obtenga el número de filas y columnas del marco de datos de PySpark

julio 5, 2022 Rudeus Greyrat

En este artículo, discutiremos cómo obtener el número de filas y el número de columnas de un marco de datos de PySpark. Para encontrar el número de filas y el número de columnas, usaremos count() y column() con la función len() respectivamente. df.count(): esta función se usa para extraer el número de filas del marco … Continue reading «Obtenga el número de filas y columnas del marco de datos de PySpark»

¿Cómo obtener filas distintas en el marco de datos usando PySpark?

julio 5, 2022 Rudeus Greyrat

En este artículo, vamos a obtener los datos distintos del marco de datos pyspark en Python, por lo que vamos a crear el marco de datos utilizando una lista anidada y obtener los datos distintos. Vamos a crear un marco de datos a partir de la lista pyspark sin pasar por la lista al método … Continue reading «¿Cómo obtener filas distintas en el marco de datos usando PySpark?»

¿Cómo duplicar una fila N en el marco de datos de Pyspark?

julio 5, 2022 Rudeus Greyrat

En este artículo, vamos a aprender cómo duplicar una fila N veces en un PySpark DataFrame. Método 1: Repetir filas según el valor de la columna En este método, primero crearemos un PySpark DataFrame usando createDataFrame() . En nuestro ejemplo, la columna «Y» tiene un valor numérico que solo se puede usar aquí para repetir … Continue reading «¿Cómo duplicar una fila N en el marco de datos de Pyspark?»

Cómo iterar sobre filas y columnas en el marco de datos de PySpark

julio 5, 2022 Rudeus Greyrat

En este artículo, discutiremos cómo iterar filas y columnas en el marco de datos de PySpark. Cree el marco de datos para la demostración: Python3 # importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName(‘sparkdf’).getOrCreate() # … Continue reading «Cómo iterar sobre filas y columnas en el marco de datos de PySpark»

¿Cómo mostrar el contenido de la columna completa en un marco de datos PySpark?

julio 5, 2022 Rudeus Greyrat

A veces, en el marco de datos, cuando los datos de la columna contienen el contenido largo o la oración grande, PySpark SQL muestra el marco de datos en forma comprimida, lo que significa que se muestran las primeras palabras de la oración y otras son seguidas por puntos que indican que hay más datos … Continue reading «¿Cómo mostrar el contenido de la columna completa en un marco de datos PySpark?»

Eliminar duplicados de un marco de datos en PySpark

julio 5, 2022 Rudeus Greyrat

En este artículo, eliminaremos los datos duplicados del marco de datos usando pyspark en Python Antes de comenzar vamos a crear Dataframe para demostración: Python3 # importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName(‘sparkdf’).getOrCreate() # … Continue reading «Eliminar duplicados de un marco de datos en PySpark»

¿Cómo agregar una columna constante en un PySpark DataFrame?

julio 5, 2022 Rudeus Greyrat

En este artículo, veremos cómo agregar una columna constante en un marco de datos PySpark. Se puede hacer de estas formas: Usando encendido() Usando la consulta Sql. Creando Dataframe para demostración: Python3 # Create a spark session from pyspark.sql import SparkSession from pyspark.sql.functions import lit spark = SparkSession.builder.appName(‘SparkExamples’).getOrCreate() # Create a spark dataframe columns … Continue reading «¿Cómo agregar una columna constante en un PySpark DataFrame?»

¿Cómo seleccionar y ordenar varias columnas en Pyspark DataFrame?

julio 5, 2022 Rudeus Greyrat

En este artículo, discutiremos cómo seleccionar y ordenar varias columnas de un marco de datos usando pyspark en Python. Para esto, estamos usando las funciones sort() y orderBy() junto con la función select(). Métodos utilizados Seleccionar(): este método se usa para seleccionar la parte de las columnas del marco de datos y devolver una copia … Continue reading «¿Cómo seleccionar y ordenar varias columnas en Pyspark DataFrame?»

¿Cómo contar una ID única después de groupBy en PySpark Dataframe?

julio 5, 2022 Rudeus Greyrat

En este artículo, discutiremos cómo contar ID únicos después de agrupar en PySpark Dataframe. Para ello, utilizaremos dos métodos diferentes: Usando el método distinto().count(). Uso de consulta SQL. Pero al principio, creemos un marco de datos para la demostración: Python3 # importing module import pyspark # importing sparksession from pyspark.sql # module from pyspark.sql … Continue reading «¿Cómo contar una ID única después de groupBy en PySpark Dataframe?»

Obtenga una fila específica del marco de datos de PySpark

julio 5, 2022 Rudeus Greyrat

En este artículo, discutiremos cómo obtener la fila específica del marco de datos de PySpark. Creando Dataframe para demostración: Python3 # importing module import pyspark # importing sparksession # from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession # and giving an app name spark = SparkSession.builder.appName(‘sparkdf’).getOrCreate() # list of employee … Continue reading «Obtenga una fila específica del marco de datos de PySpark»