Las 10 mejores bibliotecas R para ciencia de datos en 2020

Cuando se habla de Data Science, es imposible no hablar de R. De hecho, se puede decir que R es el mejor lenguaje para Data Science, ya que fue desarrollado por estadísticos para estadísticos. También es muy popular (¡a pesar de tener una dura competencia con Python!) con una comunidad activa y muchas bibliotecas de vanguardia disponibles actualmente.

Top-10-R-Libraries-for-Data-Science-in-2020

De hecho, hay muchas bibliotecas de R que contienen una gran cantidad de funciones, herramientas y métodos para administrar y analizar datos. Cada una de estas bibliotecas tiene un enfoque particular con algunas bibliotecas que administran imágenes y datos textuales, manipulación de datos, visualización de datos, rastreo web, aprendizaje automático, etc. Aquí tenemos las 10 mejores bibliotecas R para ciencia de datos, ¡así que vamos a verlas ahora!

1. dplyr

dplyr es una biblioteca de manipulación de datos muy popular en R. Tiene cinco funciones importantes que se combinan naturalmente con la función group_by() que puede ayudar a realizar estas funciones en grupos. Estas funciones incluyen la función mutate() que puede agregar nuevas variables que son funciones de variables existentes, la función select() que selecciona las variables según sus nombres, la función filter() que selecciona las variables según sus valores, summarise() función que reduce múltiples valores en un resumen, y la función de arreglar() que organiza el ordenamiento de las filas. Si desea instalar dplyr, el mejor método es instalar tidyverse, que es una colección de paquetes R creados específicamente para Data Science. O simplemente puede instalar dplyr usando install.packages («dplyr») .

2. ggplot2

ggplot2es una biblioteca de visualización de datos R que se basa en The Grammar of Graphics. ggplot2 puede crear visualizaciones de datos como gráficos de barras, gráficos circulares, histogramas, diagramas de dispersión, gráficos de error, etc. utilizando una API de alto nivel. También le permite agregar diferentes tipos de componentes o capas de visualización de datos en una sola visualización. Una vez que se le ha dicho a ggplot2 qué variables asignar a qué estética en la trama, hace el resto del trabajo para que el usuario pueda concentrarse en interpretar las visualizaciones y dedicar menos tiempo a crearlas. Pero esto también significa que no es posible crear gráficos altamente personalizados en ggplot2. Pero hay muchos recursos en la comunidad RStudio y Stack Overflow que pueden brindar ayuda en ggplot2 cuando sea necesario. Al igual que dplyr, si desea instalar ggplot2,instalar.paquetes («ggplot2»)

3. Esquisse

Esquisse es una herramienta de visualización de datos en R que le permite crear visualizaciones de datos detalladas utilizando el paquete ggplot2. Puede crear todo tipo de diagramas de dispersión, histogramas, gráficos de líneas, gráficos de barras, gráficos circulares, barras de error, diagramas de caja, ejes múltiples, minigráficos, dendrogramas, gráficos en 3D, etc. usando Esquisse y también exportar estos gráficos o acceder a la código para crear estos gráficos. Esquisse es una herramienta de visualización de datos tan famosa y fácil de usar debido a su capacidad de arrastrar y soltar que la hace popular incluso entre los principiantes. Puede instalar Esquisse desde CRAN usando install.packages («esquisse») o instalar la versión de desarrollo desde GitHub usando remotes::install_github («dreamRs/esquisse») .

4. brillante

Shiny es un paquete R que se puede usar para crear aplicaciones web interactivas en R. Básicamente, Shiny ofrece una combinación entre R y la web moderna. Y puede crear fácilmente aplicaciones web usando Shiny sin necesidad de ninguna habilidad especial de desarrollo web. Con Shiny, puede incrustar aplicaciones web en documentos R, crear aplicaciones independientes en una página web o incluso crear paneles de visualización web. Si desea ampliar la funcionalidad de sus aplicaciones brillantes, puede hacerlo agregando widgets HTML, temas CSS, acciones de JavaScript, etc. Si no tiene tanto conocimiento sobre Shiny, puede acceder a tutoriales en video en el sitio web de Shiny RStudio. Y también puede implementar la aplicación Shiny en la nube o en sus propios servidores con una licencia comercial o de código abierto.

5. mlr3

mlr3 es una herramienta R creada específicamente para Machine Learning. Puede implementar varios modelos de aprendizaje automático supervisado y no supervisado en Scikit-learn como Clasificación, Regresión, Máquinas de vectores de soporte, Bosques aleatorios, Vecinos más cercanos, Naive Bayes, Árboles de decisión, Agrupación, etc. con mlr3. También está conectado al paquete OpenML R, que se dedica a respaldar el aprendizaje automático en línea. Puede crear fácilmente sus propios algoritmos de MAchine Learning en mlr3 o incluso trabajar dentro de los algoritmos ya establecidos. mlr3 es una mejora con respecto a su versión anterior mlr, que ahora está retirada y no actualizada por el equipo de mlr-org. Puede instalar la última versión de mlr3 desde CRAN usando install.packages («mlr3») o instalar la versión de desarrollo desde GitHub usandocontroles remotos::install_github(“mlr-org/mlr3”).

6. Lubricar

lubricares una biblioteca R que se enfoca particularmente en hacer que la fecha y la hora sean fáciles de manejar. Trabajar con datos de fecha y hora puede ser frustrante con R porque los comandos de R no son intuitivos para este tipo de datos y pueden cambiar según el tipo de objeto de fecha y hora. En esta situación, Lubridate es un salvavidas, ya que permite una fácil gestión de datos de fecha y hora con funciones simples que gestionan componentes de fecha y hora como segundo(), minuto(), hora(), día(), mes(), y año(). También hay muchas clases de intervalo de tiempo nuevas en Lubridate que ayudan en el manejo de operaciones matemáticas. estas clases incluyen Intervalos que brindan un resumen proteico de la información de tiempo entre dos puntos, Duraciones que brindan la cantidad de tiempo entre dos puntos, Períodos que rastrean con precisión las horas del reloj, etc. Si desea instalar dplyr,install.packages(“tidyverse”) ya que Lubridate es parte de él. O simplemente puede instalar dplyr usando install.packages («lubridate»).

7. RCrastreador

RCrawler es un paquete R para el rastreo web basado en dominios y el raspado web que implica la obtención de datos estructurados de sitios web que se pueden usar en múltiples aplicaciones. RCrawler está involucrado en la minería de estructuras web, minería de texto, minería de contenido web, etc. Rcrawler puede moverse automáticamente por todas las páginas de un sitio web y extraer todos los datos que se requieren de estas páginas web con un solo comando. Sin embargo, este proceso de rastreo web lo realizan Nodes simultáneos que funcionan en paralelo, por lo que es mejor tener la versión de 64 bits de R para Rcrawler. Puede instalar la versión de lanzamiento de Rcrawler desde CRAN usando el comando install.packages («Rcrawler», dependencias = TRUE) o instalar la versión de desarrollo desde GitHub que puede tener errores usando el comando devtools::install_github («salimk/Rcrawler»)

8. tejer

knitr es un paquete R para la generación de informes dinámicos que se puede usar para integrar varios tipos de código en el código R, como Markdown, LyX, LaTeX, AsciiDoc, HTML, etc. knitr es un paquete muy importante si está trabajando en investigación para la creación de informes y también es muy útil para automatizar el proceso de datos desde el análisis de datos hasta la creación de un informe al respecto. knitr también combina muchas funciones en un solo paquete y también resuelve algunos problemas con Sweave, que es una función en R que integra código R en documentos LyX o LaTeX. Puede instalar la versión estable de knitr en CRAN usando install.packages(‘knitr’) o instalar la versión de desarrollo desde XRAN usando install.packages(‘knitr’, repos = c(‘https://xran.yihui.org’ , ‘https://cran.r-project.org’)).

9. DT

DT es un paquete de R que proporciona una interfaz para la biblioteca de JavaScript DataTables que se puede usar para mostrar arrays de R y marcos de datos en forma de tablas. Estas tablas son tablas HTML interactivas y puede realizar muchas funciones diferentes, como ordenar, buscar, filtrar, etc. La función más importante en DT es datatable(), ya que puede crear una tabla de datos para mostrar los objetos R. También puede diseñar sus tablas en DT usando las clases CSS. Puede instalar la versión estable de DT en CRAN usando install.packages(‘DT’) o instalar la versión de desarrollo desde GitHub usando remotes::install_github(‘rstudio/DT’) .

10. Trama

Plotly es una biblioteca gráfica gratuita de código abierto que se puede utilizar para formar visualizaciones de datos. Plotly es un paquete R que se basa en la biblioteca Plotly JavaScript (plotly.js) y se puede usar para crear visualizaciones de datos basadas en la web que se pueden mostrar en cuadernos Jupyter o aplicaciones web usando Dash o guardar como archivos HTML individuales. Plotly proporciona más de 40 tipos de gráficos únicos, como gráficos de dispersión, histogramas, gráficos de líneas, gráficos de barras, gráficos circulares, barras de error, diagramas de caja, ejes múltiples, minigráficos, dendrogramas, gráficos en 3D, etc. Plotly también proporciona gráficos de contorno, que no son tan comunes en otras bibliotecas de visualización de datos. Además de todo esto, Plotly se puede usar sin conexión sin conexión a Internet. Puede instalar Plotly desde CRAN usando install.packages(‘plotly’)o instale la última versión de desarrollo de GitHub usando devtools::install_github(“ropensci/plotly”).

Publicación traducida automáticamente

Artículo escrito por harkiran78 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA