Análisis Descriptivo en Programación R

En el análisis descriptivo, describimos nuestros datos con la ayuda de varios métodos representativos como el uso de cuadros, gráficos, tablas, archivos de Excel, etc. En el análisis descriptivo, describimos nuestros datos de alguna manera y los presentamos de manera significativa para que se puede entender fácilmente. La mayoría de las veces se realiza en pequeños conjuntos de datos y este análisis nos ayuda mucho a predecir algunas tendencias futuras en función de los hallazgos actuales. Algunas medidas que se utilizan para describir un conjunto de datos son medidas de tendencia central y medidas de variabilidad o dispersión. 

Proceso de Análisis Descriptivo

  • La medida de tendencia central
  • Medida de variabilidad

Medida de tendencia central

Representa todo el conjunto de datos por un solo valor. Nos da la ubicación de los puntos centrales. Hay tres medidas principales de tendencia central: 

  • Significar
  • Modo
  • Mediana

Medida de variabilidad

La medida de la variabilidad se conoce como la dispersión de los datos o qué tan bien se distribuyen nuestros datos. Las medidas de variabilidad más comunes son: 

  • Rango
  • Diferencia
  • Desviación Estándar

Necesidad de análisis descriptivo

El análisis descriptivo nos ayuda a comprender nuestros datos y es una parte muy importante del aprendizaje automático. Esto se debe a que Machine Learning se trata de hacer predicciones. Por otro lado, las estadísticas tienen que ver con sacar conclusiones de los datos, que es un paso inicial necesario para el aprendizaje automático. Hagamos este análisis descriptivo en R.

Análisis Descriptivo en R

Los análisis descriptivos consisten en describir simplemente los datos utilizando algunas estadísticas y gráficos de resumen. Aquí, describiremos cómo calcular estadísticas de resumen utilizando el software R.

Importe sus datos en R:

Antes de realizar cualquier cálculo, en primer lugar, debemos preparar nuestros datos, guardarlos en archivos .txt o .csv externos y es una buena práctica guardar el archivo en el directorio actual. Después de esa importación, sus datos en R de la siguiente manera:

Obtenga el archivo csv aquí .

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
# Print the first 6 rows
print(head(myData))

Producción:

   Product Age Gender Education MaritalStatus Usage Fitness Income Miles
1   TM195  18   Male        14        Single     3       4  29562   112
2   TM195  19   Male        15        Single     2       3  31836    75
3   TM195  19 Female        14     Partnered     4       3  30699    66
4   TM195  19   Male        12        Single     3       3  32973    85
5   TM195  20   Male        13     Partnered     4       2  35247    47
6   TM195  20 Female        14     Partnered     3       3  32973    66

Funciones de R para calcular el análisis descriptivo:

Significar 

Es la suma de las observaciones dividida por el número total de observaciones. También se define como promedio, que es la suma dividida por la cuenta.

donde n = número de términos

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Compute the mean value
mean = mean(myData$Age)
print(mean)

Producción: 

[1] 28.78889

Mediana 

Es el valor medio del conjunto de datos. Divide los datos en dos mitades. Si el número de elementos en el conjunto de datos es impar, entonces el elemento central es la mediana y si es par, la mediana sería el promedio de dos elementos centrales.
 

donde n = número de términos

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Compute the median value
median = median(myData$Age)
print(median)

Producción: 

[1] 26

Modo 

Es el valor que tiene la frecuencia más alta en el conjunto de datos dado. El conjunto de datos puede no tener moda si la frecuencia de todos los puntos de datos es la misma. Además, podemos tener más de un modo si encontramos dos o más puntos de datos que tienen la misma frecuencia.

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the library
library(modeest)
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Compute the mode value
mode = mfv(myData$Age)
print(mode)

Producción: 

[1] 25

Rango 

El rango describe la diferencia entre el punto de datos más grande y más pequeño en nuestro conjunto de datos. Cuanto mayor sea el rango, mayor será la difusión de los datos y viceversa.

Rango = valor de datos más grande – valor de datos más pequeño 

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Calculate the maximum
max = max(myData$Age)
# Calculate the minimum
min = min(myData$Age)
# Calculate the range
range = max - min
 
cat("Range is:\n")
print(range)
 
# Alternate method to get min and max
r = range(myData$Age)
print(r)

Producción: 

Range is:
[1] 32

[1] 18 50

Diferencia 

Se define como una desviación cuadrada promedio de la media. Se calcula encontrando la diferencia entre cada punto de datos y el promedio, que también se conoce como la media, elevándolos al cuadrado, sumándolos todos y luego dividiendo por la cantidad de puntos de datos presentes en nuestro conjunto de datos.

donde, 
N = número de términos 
u = Media

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Calculating variance
variance = var(myData$Age)
print(variance)

Producción: 

[1] 48.21217

Desviación Estándar 

Se define como la raíz cuadrada de la varianza. Se calcula encontrando la media, luego restando cada número de la media, que también se conoce como promedio, y elevando al cuadrado el resultado. Sumando todos los valores y luego dividiendo por el número de términos seguido de la raíz cuadrada.

donde, 
N = número de términos 
u = Media

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv", stringsAsFactors = F)
 
# Calculating Standard deviation
std = sd(myData$Age)
print(std)

Producción: 

[1] 6.943498

Algunas funciones R más utilizadas en el análisis descriptivo:

Cuartiles 

Un cuartil es un tipo de cuantil. El primer cuartil (Q1) se define como el número medio entre el número más pequeño y la mediana del conjunto de datos, el segundo cuartil (Q2) es la mediana del conjunto de datos dado, mientras que el tercer cuartil (Q3) es el medio número entre la mediana y el mayor valor del conjunto de datos.

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv", stringsAsFactors = F)
 
# Calculating Quartiles
quartiles = quantile(myData$Age)
print(quartiles)

Producción: 

0%  25%  50%  75% 100% 
18   24   26   33   50 

Rango intercuartil 

El rango intercuartil (IQR), también llamado midspread o 50% medio, o técnicamente H-spread es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Cubre el centro de la distribución y contiene el 50% de las observaciones. 

RIC = Q3 – Q1

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv", stringsAsFactors = F)
 
# Calculating IQR
IQR = IQR(myData$Age)
print(IQR)

Producción: 

[1] 9

función resumen() en R

La función summary() se puede utilizar para mostrar varios resúmenes estadísticos de una variable o de un marco de datos completo.

Resumen de una sola variable: 

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Calculating summary
summary = summary(myData$Age)
print(summary)

Producción: 

 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
18.00   24.00   26.00   28.79   33.00   50.00 

Resumen del marco de datos 

Ejemplo: 

R

# R program to illustrate
# Descriptive Analysis
 
# Import the data using read.csv()
myData = read.csv("CardioGoodFitness.csv",
                stringsAsFactors = F)
 
# Calculating summary
summary = summary(myData)
print(summary)

Producción: 

Product               Age           Gender            Education    
 Length:180         Min.   :18.00   Length:180         Min.   :12.00  
 Class :character   1st Qu.:24.00   Class :character   1st Qu.:14.00  
 Mode  :character   Median :26.00   Mode  :character   Median :16.00  
                    Mean   :28.79                      Mean   :15.57  
                    3rd Qu.:33.00                      3rd Qu.:16.00  
                    Max.   :50.00                      Max.   :21.00  


 MaritalStatus          Usage          Fitness          Income           Miles      
 Length:180         Min.   :2.000   Min.   :1.000   Min.   : 29562   Min.   : 21.0  
 Class :character   1st Qu.:3.000   1st Qu.:3.000   1st Qu.: 44059   1st Qu.: 66.0  
 Mode  :character   Median :3.000   Median :3.000   Median : 50597   Median : 94.0  
                    Mean   :3.456   Mean   :3.311   Mean   : 53720   Mean   :103.2  
                    3rd Qu.:4.000   3rd Qu.:4.000   3rd Qu.: 58668   3rd Qu.:114.8  
                    Max.   :7.000   Max.   :5.000   Max.   :104581   Max.   :360.0  

Publicación traducida automáticamente

Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *