Las columnas del marco de datos en R se pueden factorizar sobre la base de sus columnas de factores. Las columnas de factores del marco de datos se componen de niveles de factores. Los factores se utilizan para representar datos categóricos. Cada uno de los factores se denota por un nivel, calculado en el orden lexicográfico de aparición de caracteres o strings en el vector de nivel de factor codificado. En este artículo discutiremos cómo obtener todos los niveles de factor de la columna del marco de datos en R.
El paquete hardhat en R es responsable de proporcionar funcionalidad para preprocesar, predecir y validar entradas. Se utiliza para construir paquetes de modelado.
Sintaxis:
install.packages(“casco”)
El método get_levels() en este paquete se usa para extraer los niveles de cualquier columna de factores en el marco de datos especificado. La principal ventaja de este método se utiliza en la extracción de los niveles de los factores originales de los predictores en el conjunto de entrenamiento, que es el marco de datos, en este caso. Toma como argumento solo un marco de datos o tabla de datos en R y devuelve las diferentes columnas asignadas a los niveles de factor correspondientes en forma de vectores, si y solo si el tipo de datos es compatible.
Sintaxis:
obtener_niveles(marco_de_datos)
Las columnas están niveladas sobre la base de los niveles de los factores. Sin embargo, se eliminan las entradas duplicadas, ya que se encuentran en el mismo nivel de factor.
Ejemplo 1:
R
# getting required libraries library("hardhat") # declaring data frame data_frame <- data.frame( col1 = letters[4:6], col3 = c("geeks","for","geeks")) print ("Original DataFrame") print (data_frame) print ("Factors") get_levels(data_frame)
Producción
[1] «Marco de datos original»
col1 col3
1 d frikis
2 correos para
3 f frikis
[1] “Factores”
$col1
[1] “d” “e” “f”
$col3
[1] «para» «frikis»
Solo las columnas del marco de datos que son del tipo de factor devuelven resultados en el método get_levels(). El siguiente programa se utiliza para comprender la compatibilidad de tipos de datos para el cálculo de los niveles de factor de las columnas en el marco de datos.
Ejemplo 2:
R
# getting required libraries library("hardhat") # declaring data frame data_frame <- data.frame(col1 = factor(c(2,4,6)), col2 = FALSE, col3 = LETTERS[1:3]) print ("Original DataFrame") print (data_frame) print ("Factors") get_levels(data_frame)
Producción
col1 col2 col3
1 2 FALSO A
2 4 FALSO B
3 6 FALSO C
[1] “Factores”
$col1
[1] “2” “4” “6”
$col3
[1] “A” “B” “C”
Para producir el factor de salida (vec), donde vec es el vector incompatible, se puede usar mientras se declara y define la columna.
Publicación traducida automáticamente
Artículo escrito por mallikagupta90 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA