Regresión multivariante

Artículo de requisitos previos: aprendizaje automático

El objetivo de cualquier análisis de datos es extraer de la información en bruto la estimación precisa. Una de las preguntas más importantes y comunes es si existe una relación estadística entre una variable de respuesta (Y) y las variables explicativas (Xi). Una opción para responder a esta pregunta es emplear el análisis de regresión para modelar su relación. Además, se puede usar para predecir la variable de respuesta para cualquier conjunto arbitrario de variables explicativas.

 El problema:

La regresión multivariante es uno de los algoritmos de aprendizaje automático más simples. Viene bajo la clase de algoritmos de aprendizaje supervisado, es decir, cuando se nos proporciona un conjunto de datos de entrenamiento. Algunos de los problemas que se pueden resolver con este modelo son:

  • Un investigador ha recopilado datos sobre tres variables psicológicas, cuatro variables académicas (puntuaciones de pruebas estandarizadas) y el tipo de programa educativo en el que se encuentra el estudiante para 600 estudiantes de secundaria. Le interesa cómo se relaciona el conjunto de variables psicológicas con las variables académicas y el tipo de programa en el que se encuentra el estudiante.
  • Un médico ha recopilado datos sobre el colesterol, la presión arterial y el peso. También recopiló datos sobre los hábitos alimenticios de los sujetos (p. ej., cuántas onzas de carne roja, pescado, productos lácteos y chocolate consumían a la semana). Ella quiere investigar la relación entre las tres medidas de salud y los hábitos alimenticios.
  • Un comerciante de propiedades quiere establecer precios de vivienda que se basan en varios factores como el tamaño de la casa, el número de habitaciones, la edad de la casa, etc. Analizaremos el algoritmo con más detalle usando este ejemplo.

La solución:

          La solución se divide en varias partes.

  • Seleccionar las características: encontrar las características de las que depende (o no) una variable de respuesta es uno de los pasos más importantes en la regresión multivariante. Para simplificar nuestro análisis, asumimos que las características de las que depende la variable de respuesta ya están seleccionadas.
  • Normalización de las características: luego se escalan las características para llevarlas al rango de (0,1) para hacer un mejor análisis. Esto se puede hacer cambiando el valor de cada característica por:
    \begin{matrix} Xi=\frac {x_i-\mu _i}{\delta _i}, Donde,x_i=Ejemplos\ de\entrenamiento\ para\ i-ésima\ característica, \\ \mu _i=media\ de\ i-ésima\ característica.  \\ \delta _i=rango \ de\ i-ésima \ característica.  \end{array}
  • Selección de hipótesis y función de costo: una hipótesis es un valor predicho de la variable de respuesta representada por h(x). La función de costo define el costo de predecir hipótesis incorrectamente. Debe ser lo más pequeño posible. Elegimos la función de hipótesis como combinación lineal de características X.
  • \begin{matrix} h(x^i)=\theta _0 +\theta _1x_1^i+........+\theta _nx_n^i \\ where\Theta =[\theta _0 +\theta _1+........+\theta _n]^Tis\ the \ parameter\ vector, \\  and \ x_i^j=value\ of \ ith\ feature\ in \ jth\ training\ example. \\ And\ the\ cost\ function\ as \ sum\ of\ squared\ error\ over\ all\ training\ examples.\\ J(\theta )=\frac {1}{2m*\sum (h_\theta(x^i)-y^i)^2}\end{matrix}

  • Minimización de la función de costo: A continuación, se ejecuta un algoritmo de minimización de costos sobre los conjuntos de datos que ajustan los parámetros de la hipótesis. Una vez que se minimiza la función de costo para el conjunto de datos de entrenamiento, también debe minimizarse para un conjunto de datos arbitrario si la relación es universal. El algoritmo de descenso de gradiente es una buena opción para minimizar la función de costo en caso de regresión multivariada.
  • Prueba de la hipótesis: la función de hipótesis se prueba luego sobre el conjunto de prueba para verificar su corrección y eficiencia.

Implementación :

La técnica de regresión multivariante se puede implementar de manera eficiente con la ayuda de operaciones matriciales. Con python, se puede implementar utilizando la biblioteca «numpy» que contiene definiciones y operaciones para el objeto de array.

El código requiere la biblioteca «numpy» para python ( www.numpy.org/ ) que no está instalada en los servidores GfG y, por lo tanto, el código no puede ejecutarse en gfg IDE. Sin embargo, el enlace al código es:

Código:  https://ide.geeksforgeeks.org/WxxMIg

Referencias:

          [1] http://cs229.stanford.edu (Para obtener más información sobre la regresión multivariante)

          [2] http://docs.scipy.org (Para usar la biblioteca «numpy» con python)

          [3] Algunos ejemplos están tomados de

            http://www.ats.ucla.edu/stat/stata/dae/mvreg.htm

Este artículo es una contribución de Abhishek Sharma . Si le gusta GeeksforGeeks y le gustaría contribuir, también puede escribir un artículo y enviarlo por correo electrónico a contribuya@geeksforgeeks.org. Vea su artículo que aparece en la página principal de GeeksforGeeks y ayude a otros Geeks.

Publicación traducida automáticamente

Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *