Error verdadero frente a error de muestra

verdadero error

El verdadero error se puede decir como la probabilidad de que la hipótesis clasifique erróneamente una sola muestra extraída al azar de la población. Aquí la población representa todos los datos del mundo.

Consideremos una hipótesis h(x) y la función verdadero/objetivo es f(x) de la población P. La probabilidad de que h clasifique erróneamente una instancia extraída al azar, es decir, el error verdadero es:

T.E. = Prob[f(x) \neq h(x)]

Error de muestra

El error de muestra de S con respecto a la función objetivo f y la muestra de datos S es la proporción de ejemplos que S clasifica incorrectamente.

S.E. =\frac{1}{n} \sum_{x \epsilon S}\delta(f(x) \neq h(x))


Sample \, Error = \frac{Number\, of\, missclassified \, instances}{Total \, Number \, of \, Instance}

o, la siguiente fórmula representa también representa un error de muestra:

  • S.E.  = \frac{FP + FN}{TP + FP + FN + TN}
  • S.E.  = 1 - \frac{TP + TN}{TP + FP + FN + TN}
  • SE = 1- Precisión

Suponga que la Hipótesis h clasifica incorrectamente los 7 de los 33 ejemplos en poblaciones totales. Entonces el error de muestreo debe ser:

SE = \frac{7}{33} = .21

Sesgo y varianza

Sesgo : el sesgo es la diferencia entre la predicción promedio de la hipótesis y el valor correcto de la predicción. La hipótesis con alto sesgo intenta simplificar demasiado el entrenamiento (no trabajar sobre un modelo complejo). Tiende a tener altos errores de entrenamiento y altos errores de prueba.

Bias = E[h(x)]- f(x)

Varianza: Las hipótesis de alta varianza tienen una alta variabilidad entre sus predicciones. Intentan sobrecomplejar el modelo y no generalizan muy bien los datos.

Var(X)  = E[(X - E[X])^2]

Intervalo de confianza

  Generalmente, el verdadero error es complejo y difícil de calcular. Se puede estimar con la ayuda de un intervalo de confianza. El intervalo de confianza se puede estimar como la función del error de muestreo.

A continuación se muestran los pasos para el intervalo de confianza:

  • Extraídas aleatoriamente n muestras S (independientemente unas de otras), donde n debería ser >30 de la población P.
  • Calcule el error de muestra de la muestra S.

Aquí asumimos que el error de muestreo es el estimador insesgado de True Error. La siguiente es la fórmula para calcular el error verdadero:

T.E. = S.E. \pm  z_{s} \sqrt{\frac{S.E. (1- S.E.)}{n}}

 donde z s es el valor de la puntuación z del porcentaje s del intervalo de confianza:

% Intervalo de confianza 50 80 90 95 99 99.5
 puntuación Z 0,67 1.28 1.64 1.96 2.58 2.80

Error verdadero frente a error de muestra

verdadero error Error de muestra
El error verdadero representa la probabilidad de que una muestra aleatoria de la población se clasifique incorrectamente. Error de muestra representa la fracción de la muestra que está mal clasificada.
El error verdadero se utiliza para estimar el error de la población. Error de muestra se utiliza para estimar los errores de la muestra.
El verdadero error es difícil de calcular. Se estima por el rango del intervalo de confianza sobre la base del error de muestra. El error de muestra es fácil de calcular. Solo tienes que calcular la fracción de la muestra que está mal clasificada.
El verdadero error puede deberse a métodos de recopilación de datos deficientes, sesgo de selección o sesgo de falta de respuesta. El error de muestreo puede ser del tipo error específico de la población (personas equivocadas para encuestar), error de selección, error de marco de muestra (ventana de marco incorrecta seleccionada para la muestra) y error de falta de respuesta (cuando el encuestado no respondió).

Implementación:

En esta implementación, implementaremos la estimación del error verdadero utilizando un intervalo de confianza. 

Python3

# imports
import numpy as np
import scipy.stats as st
  
#define sample data
np.random.seed(0)
data = np.random.randint(10, 30, 10000)
  
alphas = [0.90, 0.95, 0.99, 0.995]
for alpha in alphas:
  print(st.norm.interval(alpha=alpha, loc=np.mean(data), scale=st.sem(data)))
# confidence Interval
90%: (17.868667310403545, 19.891332689596453)
95%: (17.67492277275104, 20.08507722724896)
99%: (17.29626006422982, 20.463739935770178)
99.5%: (17.154104780989755, 20.60589521901025)

Referencias:

Publicación traducida automáticamente

Artículo escrito por pawangfg y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *