Verifique el tipo de datos de cada columna de DataFrame en R

En este artículo, discutiremos cómo identificar el tipo de datos de las variables en una columna de un marco de datos determinado utilizando el lenguaje de programación R. Usaremos la función str() y sapply() en este artículo para verificar el tipo de datos de cada columna en un marco de datos. 

Método 1: Usar la función str()

La función str() en R Language se usa para mostrar de forma compacta la estructura interna de un objeto R. Puede mostrar incluso la estructura interna de listas grandes que están anidadas. Proporciona una salida de una sola línea para los objetos R básicos que le permiten al usuario conocer el objeto y sus componentes. 

Ejemplo 1: en el código a continuación, estamos pasando un marco de datos como argumento en la función str() ya que queremos verificar su tipo de datos. Observe que la columna «nombre» se identifica como Factor , la columna roll se identifica como num o numérico , la columna de fecha se identifica como Fecha (ya que hemos usado la función as.Date() para convertirla al tipo de datos Fecha), la columna pwd se identifica como logi o tipo de datos lógicos.

Sintaxis : str(objeto, …)

Parámetro : objeto : cualquier objeto R sobre el que se requiere información.

Código:

R

# sample dataframe
df <- data.frame(name = c("Welcome", "to", "Geeks", "for", "Geeks"),
                 roll = c(10, 40.1, 50.5, 80, 70),
                 date = as.Date(c("2001-10-30","2000-01-21",
                                  "1999-02-16","1950-12-03"
                                  ,"1995-11-09")),
                   
                 pwd = c(FALSE, TRUE, TRUE, TRUE, FALSE)
                 )
# checks the data type of each column
str(df)

Producción:

'data.frame':    5 obs. of  4 variables:
 $ name: Factor w/ 4 levels "for","Geeks",..: 4 3 2 1 2
 $ roll: num  10 40.1 50.5 80 70
 $ date: Date, format: "2001-10-30" "2000-01-21" ...
 $ pwd : logi  FALSE TRUE TRUE TRUE FALSE

Ejemplo 2:

Observe que en el ejemplo anterior , la columna «nombre» se identifica como tipo de datos Factor . Podemos pasar » stringAsFactors=FALSE» como argumento al definir un marco de datos si desea que la columna » name » se identifique como chr o tipo de datos de caracteres.

Sintaxis:

stringAsFactors= FALSE

R

# sample dataframe
df <- data.frame(name = c("Welcome", "to", "Geeks", "for", "Geeks"),
                 roll = c(10, 40.1, 50.5, 80, 70),
                 date = as.Date(c("2001-10-30","2000-01-21","1999-02-16",
                                  "1950-12-03","1995-11-09")),
                 pwd = c(FALSE, TRUE, TRUE, TRUE, FALSE), 
                 stringsAsFactors = FALSE
                 )
  
# checks the data type of each column
str(df)

Producción:

'data.frame':    5 obs. of  4 variables:
 $ name: chr  "Welcome" "to" "Geeks" "for" ...
 $ roll: num  10 40.1 50.5 80 70
 $ date: Date, format: "2001-10-30" "2000-01-21" ...
 $ pwd : logi  FALSE TRUE TRUE TRUE FALSE

Método 2: Usar la función sapply() y class()

La función sapply() en R Language toma una lista, un vector o un marco de datos como entrada y proporciona una salida en un vector o array. Es útil para operaciones en objetos de lista y devuelve un objeto de lista de la misma longitud que el conjunto original.

Sintaxis : sapply(X, FUN)

Parámetros :

X : Un vector o un objeto

FUN : Función aplicada a cada elemento de x

La función sapply() toma un objeto (marco de datos «df» en este caso) y una función (clase() en este caso) como argumentos, y aplica la función a cada elemento del objeto (marco de datos en este caso). En el código siguiente, hemos utilizado la función sapply() para aplicar la función class() a cada columna del marco de datos, y la función class() devuelve el tipo de datos de la columna.

Código:

R

# sample dataframe
df <- data.frame(name = c("Welcome", "to", "Geeks", "for", "Geeks"),
                 roll = c(10, 40.1, 50.5, 80, 70),
                 date = as.Date(c("2001-10-30","2000-01-21","1999-02-16",
                                  "1950-12-03","1995-11-09")),
                 pwd = c(FALSE, TRUE, TRUE, TRUE, FALSE), 
                 stringsAsFactors = FALSE
                 )
  
# checks the data type of each column
sapply(df,class)

Producción:

 name        roll        date         pwd 
"character"   "numeric"      "Date"   "logical" 

Publicación traducida automáticamente

Artículo escrito por sudhanshublaze y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *