La estadística es una forma de análisis matemático que se refiere a la recopilación, organización, análisis, interpretación y presentación de datos. El análisis estadístico ayuda a hacer el mejor uso de la gran cantidad de datos disponibles y mejora la eficiencia de las soluciones.
R – Estadísticas
R es un lenguaje de programación y se utiliza para gráficos y computación estadística ambiental. La siguiente es una introducción a los conceptos estadísticos básicos, como trazar gráficos como gráficos de barras, gráficos circulares, histogramas y diagramas de caja.
En esta publicación, aprenderemos a trazar gráficos para una sola variable. Se requiere el siguiente software para aprender e implementar estadísticas en R:
- software R
- IDE de RStudio
Funciones para trazar gráficos en Estadísticas en lenguaje de programación R
La siguiente es una lista de funciones que se requieren para trazar gráficos para la representación de datos estadísticos:
- Función plot(): Esta función se utiliza para dibujar un diagrama de dispersión con ejes y títulos.
Sintaxis:
plot(x, y = NULL, ylim = NULL, xlim = NULL, tipo = “b”….)
- Función data(): esta función se utiliza para cargar conjuntos de datos específicos.
Sintaxis:
data(lista = carácter(), lib.loc = NULL, paquete = NULL…..)
- Función table(): La función table se usa para construir una tabla de contingencia de los conteos en cada combinación de niveles de factor.
table(x, row.names = NULL, ...)
- Función barplot(): Crea un gráfico de barras con barras verticales/horizontales.
Sintaxis:
barplot(alto, ancho = 1, nombres.arg = NULL, espacio = NULL…)
- Pie() Función: Esta función se utiliza para crear un gráfico circular.
Sintaxis:
pastel (x, etiquetas = nombres (x), radio = 0.6, bordes = 100, en el sentido de las agujas del reloj = VERDADERO …)
- Función hist(): La función hist() crea un histograma de los valores de datos dados.
Sintaxis:
hist(x, breaks = “Sturges”, probabilidad = !freq, freq = NULL,…)
Nota: Puede encontrar la información sobre cada función usando el «?» símbolo antes del comienzo de cada función.
Los conjuntos de datos incorporados de R son muy útiles para comenzar y desarrollar habilidades, por lo que usaremos algunos conjuntos de datos incorporados. Comencemos por crear un gráfico de barras simple usando el conjunto de datos de chickwts y aprendamos a usar conjuntos de datos y algunas funciones de RStudio.
Gráfica de barras
Un gráfico de barras representa datos categóricos con barras rectangulares donde las barras se pueden trazar vertical u horizontalmente.
R
# ? is used before a function # to get help on that function ?plot ?chickwts data(chickwts) #loading data into workspace plot(chickwts$feed) # plot feed from chickwts
En el código anterior ‘?’ delante de una función en particular significa que da información sobre esa función con su sintaxis. En R, ‘#’ se usa para comentar una sola línea y no hay comentarios de varias líneas en R. Aquí estamos usando chickwts como el conjunto de datos y el feed es el atributo en el conjunto de datos.
Producción:
R
feeds=table(chickwts$feed) # plots graph in decreasing order barplot(feeds[order(feeds, decreasing=TRUE)])
Producción:
R
feeds = table(chickwts$feed) # outside margins bottom, left, top, right. par(oma=c(1, 1, 1, 1)) par(mar=c(4, 5, 2, 1)) # las is used orientation of axis labels barplot(feeds[order(feeds, decreasing=TRUE)] # horiz is used for bars to be shown as horizontal. barplot(feeds[order(feeds)], horiz=TRUE, # col is used for colouring bars. # xlab is used to label x-axis. xlab="Number of chicks", las=1 col="yellow")
Producción:
Gráficos circulares
Un gráfico circular es un gráfico estadístico circular que se divide en sectores para mostrar los diferentes tamaños de los datos.
R
data("chickwts") # main is used to create # an heading for the chart d = table(chickwts$feed) pie(d[order(d, decreasing=TRUE)], clockwise=TRUE, main="Pie Chart of feeds from chichwits", )
Producción:
Histogramas
Los histogramas son la representación de la distribución de datos (numéricos o categóricos). Es similar a un gráfico de barras pero agrupa los datos en términos de rangos.
R
# break is used for number of bins. data(lynx) # lynx is a built-in dataset. lynx # hist function is used to plot histogram. hist(lynx) hist(lynx, break=7, col="green", main="Histogram of Annual Canadian Lynx Trappings")
Producción :
R
data(lynx) # if freq=FALSE this will draw normal distribution lynx hist(lynx) hist(lynx, break=7, col="green", freq=FALSE main="Histogram of Annual Canadian Lynx Trappings") curve(dnorm(x, mean=mean(lynx), sd=sd(lynx)), col="red", lwd=2, add=TRUE)
Producción:
Diagramas de caja
Box Plot es una función para representar gráficamente grupos de datos numéricos usando cuartiles. Representa la distribución de datos y la comprensión de la media, la mediana y la varianza.
R
# USJudgeRatings is Built-in Dataset. ?USJudgeRatings # ylim is used to specify the range. boxplot(USJudgeRatings$RTEN, horizontal=TRUE, xlab="Lawyers Rating", notch=TRUE, ylim=c(0, 10), col="pink")
USJudgeRating es un conjunto de datos incorporado con 6 atributos y RTEN es uno de los atributos que tiene una calificación de 0 a 10 inclusive. Lo usamos para trazar un diagrama de caja con diferentes atributos de la función de diagrama de caja.
Producción:
Publicación traducida automáticamente
Artículo escrito por nimma_shravan_kumar_reddy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA