R es un lenguaje robusto utilizado por analistas, científicos de datos y usuarios comerciales para realizar diversas tareas, como análisis estadístico, visualizaciones y desarrollo de software estadístico en múltiples campos.
Data Wrangling es un proceso que transforma los datos sin procesar en un formato más estructurado, lo que ayudará a obtener mejores conocimientos y tomar mejores decisiones a partir de los datos.
¿Qué son los Tibbles?
Tibbles son la estructura de datos central del tidyverse
y se utilizan para facilitar la visualización y el análisis de información en un formato ordenado. Tibbles es una nueva forma de marco de datos donde los marcos de datos son las estructuras de datos más comunes utilizadas para almacenar conjuntos de datos en R.
Ventajas de Tibbles sobre marcos de datos
- Todos los paquetes de Tidyverse son compatibles con Tibbles.
- Los Tibbles se imprimen en un formato mucho más limpio que los marcos de datos.
- Un marco de datos a menudo convierte strings de caracteres en factor y los analistas a menudo tienen que anular la configuración, mientras que Tibbles no intenta realizar esta conversión automáticamente.
Diferentes formas de crear Tibbles
- as_tibble():
La primera función es como función tibble. Esta función se utiliza para crear un tibble a partir de un marco de datos existente.
Sintaxis:
as_tibble(x, validar = NULL, …)x es un marco de datos, una array o una lista.
- tibble():
La segunda forma es usar unatibble()
función, que se usa para crear un tibble desde cero.
Sintaxis:
tibble(s…, filas = NULL)s representa un conjunto de pares de nombre y valor.
- Importar():
finalmente, puede usar los paquetes de importación de datos de tidyverse para crear Tibbles a partir de fuentes de datos externas, como bases de datos o archivos CSV.
Sintaxis: import(nombrepaquete…)
- biblioteca():
lalibrary()
función se utiliza para cargar el espacio de nombres del paquete.
Sintaxis:
biblioteca (paquete, ayuda, pos = 2, lib.loc = NULL)
Note: To find more about the functions in R, type ? followed by function name. Eg: ?tibble.
Veamos algunos ejemplos de cómo usar las funciones anteriores usando Rstudio IDE. Usaremos un conjunto de datos incorporado (CO2) Consumo de dirust de carbono en plantas de pasto para crear un tibble.
Este conjunto de datos consta de varias variables, como la planta, el tipo, el tratamiento, la concentración y la absorción. Es difícil trabajar con este tipo de información, así que vamos a convertir esta información en un tibble. Vamos a crear un tibble llamado sample_tibble a partir del conjunto de datos de CO2 usando la función as_tibble().
Ejemplo de as_tibble()
Aquí estamos convirtiendo un marco de datos (CO2) en tibble usando as_tibble()
la función. Requiere que instales el paquete tidyverse en Rstudio.
library(tidyverse) # loading tidyverse package sample_tibble <- as_tibble(CO2) # creating a tibble named sample_tibble print(sample_tibble)
Producción:
Ejemplo de tibble()
El segundo método fue crear un tibble desde cero usando la tibble()
función, por lo que crearemos algunos vectores como nombre, marcas_en_matemáticas, marcas_en_Java, Fav_color, etc. y los pasaremos a la tibble()
función que los convierte en tibble.
library(tidyverse) name <- c("surya", "sai", "Nihith", "prakash", "vikas", "mayur") marks_in_Math <- c(91, 85, 92, 89, 90, 93) marks_in_Java <- c(89, 91, 88, 91, 89, 87) Fav_color <- c("Pink", "Red", "Yellow", "Green", "White", "Blue") students <- tibble(name, marks_in_Math, marks_in_Java, Fav_color) print(students)
Producción:
Tibbles de subconjuntos
Los analistas de datos a menudo extraen una sola variable de un tibble para su uso posterior en su análisis, lo que se denomina subconjunto. Cuando tratamos de crear un subconjunto de un tibble, extraemos una sola variable del Tibble en forma de vector. Podemos hacer esto usando algunos operadores especiales.
- $Operador
- [[]] Operador
$Operador
La primera forma en que podemos extraer una variable de Tibble es usando un operador con el signo de dólar ($). Para hacer esto, crearemos un tibble desde cero usando una tibble()
función.
library(tidyverse) name <- c("surya", "sai", "Nihith", "prakash", "vikas", "mayur") marks_in_Math <- c(91, 90, 91, 85, 90, 92) marks_in_Java <- c(91, 91, 92, 91, 89, 93) Fav_color <- c("Pink", "Red", "Yellow", "Green", "White", "Blue") students <- tibble(name, marks_in_Math, marks_in_Java, Fav_color) students$Fav_color students$marks_in_Math
Producción:
[[]] Operador
La segunda forma en que puede acceder a una sola variable de Tibble es usando llaves cuadradas ([[]]). Usaremos el mismo tibble creado anteriormente.
library(tidyverse) name <- c("surya", "sai", "Nihith", "prakash", "vikas", "mayur") marks_in_Math <- c(91, 90, 91, 85, 90, 92) marks_in_Java <- c(91, 91, 92, 91, 89, 93) Fav_color <- c("Pink", "Red", "Yellow", "Green", "White", "Blue") students <- tibble(name, marks_in_Math, marks_in_Java, Fav_color) students$Fav_color students[["name"]] students[["marks_in_Math"]]
Producción:
Tibbles filtrados
El filtrado proporciona una manera de ayudar a reducir el número de filas en su tibble. Al realizar el filtrado, podemos especificar condiciones o criterios específicos que se utilizan para reducir el número de filas en el conjunto de datos.
función de filtro():
Sintaxis: filtro (datos, condiciones)
Los datos representan el nombre de Tibble y las condiciones se utilizan para especificar una expresión que devuelve un valor lógico. Usaremos el Tibble del estudiante, que creamos en el ejemplo anterior.
library(tidyverse) name <- c("surya", "sai", "Nihith", "prakash", "vikas", "mayur") marks_in_Math <- c(91, 90, 91, 85, 90, 92) marks_in_Java <- c(91, 91, 92, 91, 89, 93) Fav_color <- c("Pink", "Red", "Yellow", "Green", "White", "Blue") students <- tibble(name, marks_in_Math, marks_in_Java, Fav_color) filter_students =90) print(filter_students)
Producción:
Publicación traducida automáticamente
Artículo escrito por nimma_shravan_kumar_reddy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA