El aprendizaje activo es un tipo iterativo de aprendizaje supervisado y este método de aprendizaje generalmente se prefiere si los datos están altamente disponibles, pero las etiquetas de clase son escasas o costosas de obtener. El algoritmo de aprendizaje consulta las etiquetas. El número de tuplas que utilizan el aprendizaje activo para aprender el concepto es mucho menor que el número requerido en el aprendizaje supervisado típico. Los modelos de alta precisión se desarrollan simplemente usando unas pocas instancias etiquetadas en el aprendizaje activo. El costo del aprendizaje activo es bajo en comparación con otras metodologías de aprendizaje.
El aprendizaje activo gana una gran precisión durante el entrenamiento de los datos y lleva menos tiempo entrenar el modelo. El aprendizaje activo solo admite el conjunto de entrenamiento etiquetado. Se desarrollan varias estrategias para el aprendizaje activo de los datos. una de las estrategias eficientes para el aprendizaje activo es el enfoque basado en grupos.
Ejemplo del enfoque basado en grupos en el aprendizaje activo:
Consideremos D como el conjunto de datos. El conjunto de datos etiquetados L es un subconjunto de D . U son los datos sin etiquetar del conjunto de datos D. L es el conjunto de entrenamiento inicial con el que el alumno activo comienza a entrenar L. Se aplica una función de consulta en los datos sin etiquetar U para seleccionar una o más muestras de datos y solicita etiquetas de clase para ellos de un oráculo. Los datos recién etiquetados se agregan al conjunto de entrenamiento anterior L, y el alumno activo aprende las características de las muestras etiquetadas utilizando los algoritmos supervisados estándar. Los algoritmos de aprendizaje activo se evalúan construyendo las curvas de aprendizaje a partir del conjunto de entrenamiento y prueba y trazando el gráfico de precisión del modelo construido.
La tarea principal del aprendizaje activo es elegir las tuplas de datos que se van a consultar. Se proponen muchos algoritmos y metodologías para elegir las tuplas de datos. El muestreo de incertidumbre es el método más común, en el que el alumno activo elige consultar las tuplas que tiene menos certeza de cómo etiquetar. Existen algunas otras estrategias para reducir el espacio de versiones, con el fin de encontrar el subconjunto de todas las hipótesis que son consistentes con las tuplas de entrenamiento etiquetadas. Es necesario realizar detección de errores en las tuplas de entrenamiento para eliminar el ruido de los datos.
Las tuplas seleccionadas después de la detección de errores aseguran la máxima reducción en las predicciones incorrectas al reducir la entropía esperada sobre U. Pero este enfoque requiere más operaciones computacionales.