En este artículo, discutiremos cómo colocar columnas en el marco de datos de Pyspark.
En pyspark, la función drop() se puede usar para eliminar valores/columnas del marco de datos.
Sintaxis: dataframe_name.na.drop(how=”any/all”,thresh=threshold_value,subset=[“column_name_1″,”column_name_2”])
- how – Esto toma cualquiera de los dos valores ‘any’ o ‘all’ . ‘cualquiera’, suelte una fila si contiene NULL en cualquier columna y ‘todos’, suelte una fila solo si todas las columnas tienen valores NULL. Por defecto se establece en ‘cualquiera’
- umbral: esto toma un valor entero y elimina las filas que tienen menos que ese umbral que contiene valores no nulos. Por defecto está configurado en ‘Ninguno’.
- subconjunto: este parámetro se usa para seleccionar una columna específica para apuntar a los valores NULL en ella. Por defecto es ‘Ninguno
Código de Python para crear un dataframe de estudiante con tres columnas:
Python3
# importing module import pyspark # importing sparksession from pyspark.sql module from pyspark.sql import SparkSession # creating sparksession and giving an app name spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of employee data with 5 row values data =[["1", "sravan", "company 1"], ["3", "bobby", "company 3"], ["2", "ojaswi", "company 2"], ["1", "sravan", "company 1"], ["3", "bobby", "company 3"], ["4", "rohith", "company 2"], ["5", "gnanesh", "company 1"]] # specify column names columns = ['Employee ID','Employee NAME','Company Name'] # creating a dataframe from the lists of data dataframe = spark.createDataFrame(data,columns) dataframe.show()
Producción:
+-----------+-------------+------------+ |Employee ID|Employee NAME|Company Name| +-----------+-------------+------------+ | 1| sravan| company 1| | 3| bobby| company 3| | 2| ojaswi| company 2| | 1| sravan| company 1| | 3| bobby| company 3| | 4| rohith| company 2| | 5| gnanesh| company 1| +-----------+-------------+------------+
Ejemplo 1: Eliminar una sola columna.
Aquí vamos a eliminar una sola columna del marco de datos.
Sintaxis: dataframe.drop(‘nombre de columna’)
Código:
Python3
# delete single column dataframe = dataframe.drop('Employee ID') dataframe.show()
Producción:
+-------------+------------+ |Employee NAME|Company Name| +-------------+------------+ | sravan| company 1| | bobby| company 3| | ojaswi| company 2| | sravan| company 1| | bobby| company 3| | rohith| company 2| | gnanesh| company 1| +-------------+------------+Example 2:
Ejemplo 2: eliminar varias columnas.
Aquí eliminaremos varias columnas del marco de datos.
Sintaxis: dataframe.drop(*(‘columna 1′,’columna 2′,’columna n’))
Código:
Python3
# delete two columns dataframe = dataframe.drop(*('Employee NAME', 'Employee ID')) dataframe.show()
Producción:
+------------+ |Company Name| +------------+ | company 1| | company 3| | company 2| | company 1| | company 3| | company 2| | company 1| +------------+
Ejemplo 3: Eliminar todas las columnas
Aquí eliminaremos todas las columnas del marco de datos, para esto tomaremos el nombre de la columna como una lista y lo pasaremos a drop().
Python3
list = ['Employee ID','Employee NAME','Company Name'] # delete two columns dataframe = dataframe.drop(*list) dataframe.show()
Producción:
++ || ++ || || || || || || || ++
Publicación traducida automáticamente
Artículo escrito por sravankumar8128 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA