Introducción del método de retención – Part 1

El método Holdout es el tipo de método más simple para evaluar un clasificador. En este método, el conjunto de datos (una colección de elementos de datos o ejemplos) se separa en dos conjuntos, denominados conjunto de entrenamiento y conjunto de prueba .

Un clasificador realiza la función de asignar elementos de datos en una colección determinada a una categoría o clase de destino.

Ejemplo:
los correos electrónicos en nuestra bandeja de entrada se clasifican en spam y no spam.

El clasificador debe evaluarse para averiguar su precisión, tasa de error y estimaciones de error. Se puede hacer usando varios métodos. Uno de los métodos más primitivos en la evaluación del clasificador es el ‘Método de retención’ .

En el método de retención, el conjunto de datos se divide, de modo que los datos máximos pertenecen al conjunto de entrenamiento y los datos restantes pertenecen al conjunto de prueba.

Ejemplo:
si hay 20 elementos de datos presentes, 12 se colocan en el conjunto de entrenamiento y los 8 restantes se colocan en el conjunto de prueba.

Después de dividir el conjunto de datos en dos conjuntos, el conjunto de entrenamiento se usa para construir un modelo/clasificador.
Después de la construcción del clasificador, usamos elementos de datos en el conjunto de prueba para probar la precisión, la tasa de error y la estimación del error del modelo/clasificador.

Sin embargo, es vital recordar dos afirmaciones con respecto al método de retención. Estos son :

Si se colocan los máximos elementos de datos posibles en el conjunto de entrenamiento para la construcción del modelo/clasificador, las tasas de error y las estimaciones del clasificador serían muy bajas y la precisión sería alta. Esta es una señal de un buen clasificador/modelo.

Ejemplo –
Un estudiante ‘gfg’ es entrenado por un maestro. El maestro le enseña todos los temas posibles que pueden aparecer para el examen. Por lo tanto, tiende a cometer muy pocos errores en los exámenes, por lo que se desempeña bien.

Si se usan más datos de entrenamiento para construir un clasificador, califica cualquier dato usado del conjunto de prueba, para probarlo (clasificador).

Si hay más elementos de datos presentes en el conjunto de prueba, de modo que se usen para probar el clasificador creado con el conjunto de entrenamiento. Podemos observar una evaluación más precisa del clasificador con respecto a su precisión, tasa de error y estimación.

Ejemplo –
Un estudiante ‘gfg’ es entrenado por un maestro. El maestro le enseña algunos temas, que podrían aparecer para el examen. Si al estudiante ‘gfg’ se le dan una serie de exámenes sobre la base de este entrenamiento, se puede encontrar una determinación precisa de los puntos débiles y fuertes del estudiante.

Si se utilizan más datos de prueba para evaluar el clasificador construido, su tasa de error, la estimación del error y la precisión se pueden determinar con precisión.

Problema :
durante la partición de un conjunto de datos completo en 2 partes, es decir, un conjunto de entrenamiento y un conjunto de prueba, si todos los elementos de datos que pertenecen a la clase GFG1 se colocan en el conjunto de prueba por completo, de modo que ninguno de los elementos de datos de la clase GFG1 esté en el conjunto de entrenamiento. Es evidente que el modelo/clasificador construido no está entrenado usando elementos de datos de clase – GFG1.

Solución :
la estratificación es una técnica mediante la cual los elementos de datos pertenecientes a la clase GFG1 se dividen y colocan en dos conjuntos de datos, es decir, conjunto de entrenamiento y conjunto de prueba, por igual. De tal manera que el modelo/clasificador es entrenado por elementos de datos pertenecientes a la clase -GFG1.

Ejemplo:
los cuatro elementos de datos que pertenecen a la clase: GFG1, aquí, se dividen por igual y se colocan, dos elementos de datos cada uno, en dos conjuntos de datos: conjunto de entrenamiento y conjunto de prueba.

Publicación traducida automáticamente

Artículo escrito por sharadarao1999 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta