Intervalo de confianza Bootstrap con programación R

Bootstrapping es un método estadístico para inferir sobre una población utilizando datos de muestra. Se puede usar para estimar el intervalo de confianza (IC) extrayendo muestras con reemplazo de datos de muestra. Bootstrapping se puede utilizar para asignar CI a varias estadísticas que no tienen soluciones complicadas o de forma cerrada. Supongamos que queremos obtener un intervalo de confianza del 95% usando un remuestreo de arranque, los pasos son los siguientes: 

  1. Muestra n elementos con reemplazo de los datos de muestra originales.
  2. Para cada muestra, calcule la estadística deseada, por ejemplo. media, mediana, etc.
  3. Repita los pasos 1 y 2 m veces y guarde las estadísticas calculadas.
  4. Trazar las estadísticas calculadas que forman la distribución de arranque
  5. Usando la distribución de arranque de la estadística deseada, podemos calcular el IC del 95%

Ilustración de la generación de distribución de arranque de la muestra: 

Bootstrap generation process

Implementación en R

En Programación R , el paquete de arranque permite al usuario generar fácilmente muestras de arranque de prácticamente cualquier estadística que podamos calcular. Podemos generar estimaciones de sesgo, intervalos de confianza de arranque o gráficos de distribución de arranque a partir de los cálculos del paquete de arranque.

Para fines de demostración, vamos a utilizar el conjunto de datos de iris debido a su simplicidad y disponibilidad como uno de los conjuntos de datos integrados en R. El conjunto de datos consta de 50 muestras de cada una de las tres especies de Iris (Iris setosa, Iris Virginia , e Iris versicolor). Se midieron cuatro características de cada muestra: el largo y el ancho de los sépalos y pétalos, en centímetros. Podemos ver el conjunto de datos del iris usando el comando principal y observar las características de interés. 

R

# View the first row
# of the iris dataset
head(iris, 1)

Producción: 

 Sepal.Length    Sepal.Width    Petal.Length    Petal.Width    Species
     5.1             3.5              1.4             0.2      setosa

Queremos estimar la correlación entre la longitud del pétalo y el ancho del pétalo. 

Pasos para calcular el CI Bootstrap en R:

1. Importe la biblioteca de arranque para el cálculo de bootstrap CI y ggplot2 para el trazado. 
 

R

# Import library for bootstrap methods
library(boot)
 
# Import library for plotting
library(ggplot2)

2. Cree una función que calcule la estadística que queremos usar, como la media, la mediana, la correlación, etc. 

R

# Custom function to find correlation
# between the Petal Length and Width
corr.fun <- function(data, idx)
{
  df <- data[idx, ]
 
  # Find the spearman correlation between
  # the 3rd and 4th columns of dataset
  c(cor(df[, 3], df[, 4], method = 'spearman'))
}

3. Usando la función de arranque para encontrar el arranque R de la estadística. 

R

# Setting the seed for
# reproducability of results
set.seed(42)
 
# Calling the boot function with the dataset
# our function and no. of rounds
bootstrap <- boot(iris, corr.fun, R = 1000)
 
# Display the result of boot function
bootstrap

Producción: 

ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = iris, statistic = corr.fun, R = 1000)


Bootstrap Statistics :
     original       bias    std. error
t1* 0.9376668 -0.002717295 0.009436212

4. Podemos trazar la distribución de arranque generada utilizando el comando de trazado con arranque calculado. 

R

# Plot the bootstrap sampling
# distribution using ggplot
plot(bootstrap)

Producción: 

output-plot

5. Usar la función boot.ci() para obtener los intervalos de confianza. 

R

# Function to find the
# bootstrap Confidence Intervals
boot.ci(boot.out = bootstrap,
        type = c("norm", "basic",
                 "perc", "bca"))

Producción: 

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = bootstrap, type = c("norm", "basic", "perc", 
    "bca"))

Intervals : 
Level      Normal              Basic         
95%   ( 0.9219,  0.9589 )   ( 0.9235,  0.9611 )  

Level     Percentile            BCa          
95%   ( 0.9142,  0.9519 )   ( 0.9178,  0.9535 )  
Calculations and Intervals on Original Scale

Inferencia para Bootstrap CI de la salida:

Mirando el intervalo del método Normal de (0.9219, 0.9589) podemos estar 95% seguros de que la correlación real entre la longitud y el ancho de los pétalos se encuentra en este intervalo el 95% del tiempo. Como hemos visto, la salida consta de varios CI que utilizan diferentes métodos según el parámetro de tipo en la función boot.ci. Los intervalos calculados corresponden al («norma», «básico», «perc», «bca») o Normal, Básico, Percentil y BCa que dan diferentes intervalos para el mismo nivel de 95%. El método específico a utilizar para cualquier variable depende de varios factores como su distribución, homocedástica, sesgo, etc.

Los 5 métodos que proporciona el paquete de arranque para los intervalos de confianza de arranque se resumen a continuación:

  1. Los métodos de arranque normal o límites de confianza estándar utilizan la desviación estándar para el cálculo del IC. 
    • Se usa cuando la estadística es imparcial.
    • Se distribuye normalmente.
  2. El método de arranque básico o de Hall (segundo percentil) usa el percentil para calcular el límite superior e inferior de la estadística de prueba. 
    • Cuando la estadística es imparcial y homocedástica.
    • La estadística de arranque se puede transformar en una distribución normal estándar.
  3. Bootstrap percentil o basado en cuantiles, o intervalos aproximados utilizan cuantiles, por ejemplo, 2,5%, 5%, etc. para calcular el IC. 
    • Se utiliza cuando la estadística es imparcial y homocedástica.
    • El error estándar de la estadística de arranque y las estadísticas de muestra son los mismos.
  4. BCa bootstrap o Bias Corrected Accelerated utiliza límites de percentil con corrección de sesgo y el coeficiente de aceleración estimado corrige el límite y encuentra el IC. 
    • La estadística de arranque se puede transformar en una distribución normal.
    • La estadística transformada normal tiene un sesgo constante.
  5. El bootstrap estudentizado vuelve a muestrear la muestra bootstrap para encontrar una estadística bootstrap de segunda etapa y usarla para calcular el IC. 
    • Se usa cuando la estadística es homocedástica.
    • El error estándar de la estadística de arranque se puede estimar mediante un remuestreo de segunda etapa.

Referencias:  
Paquete de arranque R Arranque  
Bootstrapping Estadísticas Wikipedia Arranque  
para intervalo de confianza
 

Publicación traducida automáticamente

Artículo escrito por shashank_10 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *