R – Estadísticas

La estadística es una forma de análisis matemático que se refiere a la recopilación, organización, análisis, interpretación y presentación de datos. El análisis estadístico ayuda a hacer el mejor uso de la gran cantidad de datos disponibles y mejora la eficiencia de las soluciones.

R – Estadísticas

R es un lenguaje de programación y se utiliza para gráficos y computación estadística ambiental. La siguiente es una introducción a los conceptos estadísticos básicos, como trazar gráficos como gráficos de barras, gráficos circulares, histogramas y diagramas de caja.

En esta publicación, aprenderemos a trazar gráficos para una sola variable. Se requiere el siguiente software para aprender e implementar estadísticas en R: 

  • software R
  • IDE de RStudio

Funciones para trazar gráficos en Estadísticas en lenguaje de programación R

La siguiente es una lista de funciones que se requieren para trazar gráficos para la representación de datos estadísticos: 

  • Función plot(): Esta función se utiliza para dibujar un diagrama de dispersión con ejes y títulos.

Sintaxis:

plot(x, y = NULL, ylim = NULL, xlim = NULL, tipo = “b”….)

  • Función data(): esta función se utiliza para cargar conjuntos de datos específicos.

Sintaxis:

data(lista = carácter(), lib.loc = NULL, paquete = NULL…..)

  • Función table(): La función table se usa para construir una tabla de contingencia de los conteos en cada combinación de niveles de factor.
table(x, row.names = NULL, ...)
  • Función barplot(): Crea un gráfico de barras con barras verticales/horizontales.

Sintaxis:

barplot(alto, ancho = 1, nombres.arg = NULL, espacio = NULL…)

  • Pie() Función: Esta función se utiliza para crear un gráfico circular.

Sintaxis:

pastel (x, etiquetas = nombres (x), radio = 0.6, bordes = 100, en el sentido de las agujas del reloj = VERDADERO …)

  • Función hist(): La función hist() crea un histograma de los valores de datos dados. 

Sintaxis:

hist(x, breaks = “Sturges”, probabilidad = !freq, freq = NULL,…)

Nota: Puede encontrar la información sobre cada función usando el «?» símbolo antes del comienzo de cada función.

Los conjuntos de datos incorporados de R son muy útiles para comenzar y desarrollar habilidades, por lo que usaremos algunos conjuntos de datos incorporados. Comencemos por crear un gráfico de barras simple usando el conjunto de datos de chickwts y aprendamos a usar conjuntos de datos y algunas funciones de RStudio.

Gráfica de barras

Un gráfico de barras representa datos categóricos con barras rectangulares donde las barras se pueden trazar vertical u horizontalmente. 

R

# ? is used before a function
# to get help on that function
?plot       
?chickwts   
data(chickwts) #loading data into workspace
plot(chickwts$feed) # plot feed from chickwts

En el código anterior ‘?’ delante de una función en particular significa que da información sobre esa función con su sintaxis. En R, ‘#’ se usa para comentar una sola línea y no hay comentarios de varias líneas en R. Aquí estamos usando chickwts como el conjunto de datos y el feed es el atributo en el conjunto de datos.

Producción: 

R

feeds=table(chickwts$feed)
 
# plots graph in decreasing order
barplot(feeds[order(feeds, decreasing=TRUE)])

Producción: 

R

feeds = table(chickwts$feed)
 
# outside margins bottom, left, top, right.
par(oma=c(1, 1, 1, 1))                           
par(mar=c(4, 5, 2, 1))                           
 
# las is used orientation of axis labels   
barplot(feeds[order(feeds, decreasing=TRUE)]
     
# horiz is used for bars to be shown as horizontal.
barplot(feeds[order(feeds)], horiz=TRUE,
 
# col is used for colouring bars.   
# xlab is used to label x-axis.
xlab="Number of chicks", las=1 col="yellow")   

Producción: 

 Gráficos circulares

Un gráfico circular es un gráfico estadístico circular que se divide en sectores para mostrar los diferentes tamaños de los datos.

R

data("chickwts")
 
# main is used to create
# an heading for the chart
d = table(chickwts$feed)           
 
pie(d[order(d, decreasing=TRUE)],
    clockwise=TRUE,
    main="Pie Chart of feeds from chichwits", )

Producción: 

Histogramas

Los histogramas son la representación de la distribución de datos (numéricos o categóricos). Es similar a un gráfico de barras pero agrupa los datos en términos de rangos. 

R

# break is used for number of bins.
data(lynx)
 
# lynx is a built-in dataset.
lynx       
 
# hist function is used to plot histogram.
hist(lynx)
hist(lynx, break=7, col="green",
    main="Histogram of Annual Canadian Lynx Trappings")

Producción :

R

data(lynx)
 
# if freq=FALSE this will draw normal distribution
lynx               
hist(lynx)
hist(lynx, break=7, col="green",
    freq=FALSE main="Histogram of Annual Canadian Lynx Trappings")
 
curve(dnorm(x, mean=mean(lynx),
            sd=sd(lynx)), col="red",
            lwd=2, add=TRUE)

Producción:

Diagramas de caja

Box Plot es una función para representar gráficamente grupos de datos numéricos usando cuartiles. Representa la distribución de datos y la comprensión de la media, la mediana y la varianza.

R

# USJudgeRatings is Built-in Dataset.
?USJudgeRatings                       
 
# ylim is used to specify the range.
boxplot(USJudgeRatings$RTEN, horizontal=TRUE,
        xlab="Lawyers Rating", notch=TRUE,
        ylim=c(0, 10), col="pink")

USJudgeRating es un conjunto de datos incorporado con 6 atributos y RTEN es uno de los atributos que tiene una calificación de 0 a 10 inclusive. Lo usamos para trazar un diagrama de caja con diferentes atributos de la función de diagrama de caja. 

Producción: 

Publicación traducida automáticamente

Artículo escrito por nimma_shravan_kumar_reddy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *