Python Pandas – método get_dummies()

pandas.get_dummies() se utiliza para la manipulación de datos. Convierte datos categóricos en variables ficticias o indicadoras.

sintaxis:   pandas.get_dummies(datos, prefijo=Ninguno, prefijo_sep=’_’, dummy_na=Falso, columnas=Ninguno, disperso=Falso, drop_first=Falso, dtype=Ninguno)

Parámetros:

  • datos: cuyos datos se van a manipular.
  • prefijo: String para agregar nombres de columna de DataFrame. Pase una lista con una longitud igual al número de columnas cuando llame a get_dummies en un DataFrame. El valor predeterminado es Ninguno.
  • prefix_sep: Separador/delimitador a usar si se agrega algún prefijo. El valor predeterminado es ‘_’
  • dummy_na: agrega una columna para indicar los valores de NaN, el valor predeterminado es falso, si se ignoran los NaN falsos.
  • columnas: nombres de columna en el marco de datos que deben codificarse. El valor predeterminado es Ninguno. Si las columnas son Ninguna, se convertirán todas las columnas con tipo de objeto o categoría.
  • disperso: especifica si las columnas con codificación ficticia deben estar respaldadas por un SparseArray (Verdadero) o una array NumPy regular (Falso). el valor predeterminado es Falso.
  • drop_first: elimine el primer nivel para obtener k-1 dummies de k niveles categóricos.
  • dtype: tipo de datos para nuevas columnas. Solo se permite un único tipo de d. El valor predeterminado es np.uint8.

Devoluciones: Dataframe (datos codificados ficticiamente)

Ejemplo 1:

Python3

import pandas as pd
 
con = pd.Series(list('abcba'))
print(pd.get_dummies(con))

 
 Producción:

Producción 

 Ejemplo 2:

Python

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li))

Producción:

La columna Nan no está allí ya que dummy_na es False por defecto

Ejemplo 3: (Para obtener la columna NaN)

Python

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li, dummy_na=True))

Producción:

Ejemplo 4:

Python3

import pandas as pd
import numpy as np
 
 
# dictionary
diff = pd.DataFrame({'R': ['a', 'c', 'd'],
                     'T': ['d', 'a', 'c'],
                     'S_': [1, 2, 3]})
 
print(pd.get_dummies(diff, prefix=['column1', 'column2']))

Producción:

Publicación traducida automáticamente

Artículo escrito por romy421kumari y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *