Hay específicamente dos tipos de técnicas de codificación guiada para características categóricas, a saber: codificación ordinal guiada por objetivo y codificación ordinal guiada por media.
Herramientas y tecnologías necesarias:
- Comprensión de la biblioteca de pandas
- Conocimientos básicos de cómo funciona un Dataframe de pandas.
- Jupyter Notebook o Google Collab o cualquier plataforma similar.
¿Qué es la codificación?
La codificación es la técnica que utilizamos para convertir la entrada categórica en un conjunto de datos en datos numéricos. Digamos que tenemos un conjunto de datos de empleados en el que hay una columna que contiene información sobre la ubicación de la ciudad de un empleado. Ahora queremos usar estos datos para formar un modelo que pueda predecir el salario de un empleado en función de sus otros detalles. Obviamente, este modelo no entiende nada sobre el nombre de la ciudad. Entonces, ¿cómo harás que el modelo lo sepa? Por ejemplo, un empleado que vive en una ciudad metropolitana gana más que los empleados de una ciudad pequeña. De alguna manera tenemos que hacer que el modelo sepa sobre esto. Sí, la forma en que piensas en tu mente es lo que haremos a través del código. Como es obvio, estamos pensando en clasificar la ciudad en función de alguna especificación. Estas formas de convertir datos categóricos en datos numéricos son nuestro objetivo.
¿Qué es la técnica de codificación guiada por objetivos?
En esta técnica, tomaremos la ayuda de nuestra variable de destino para codificar los datos categóricos. entendamos con un ejemplo,
ID de empleado | Ciudad | Mayor Calificación | Salario |
A100 | Delhi | Doctor | 50000 |
A101 | Delhi | bsc | 30000 |
A102 | Bombay | msc | 45000 |
B101 | pune | bsc | 25000 |
B102 | Calcuta | Doctor | 48000 |
C100 | pune | msc | 30000 |
D103 | Calcuta | msc | 44000 |
Intentemos codificar la columna de la ciudad usando la codificación guiada de destino. Aquí nuestra variable objetivo es el salario.
paso 1 : ordenar las ciudades según el salario correspondiente. Ahora, para hacer esto, tomaremos la media de todos los salarios de esa ciudad en particular.
paso 2 : Basado en la media del salario, el orden descendente de la ciudad es:
kolkata>mumbai>delhi>pune
Paso 3 : Según este orden, clasificaremos las ciudades.
Ciudad | Rango |
Calcuta | 4 |
Bombay | 3 |
Delhi | 2 |
pune | 1 |
(nota: también puedes clasificarlos en el orden opuesto)
Paso 4 : usaremos esta información para codificar la columna Ciudad del conjunto de datos.
ID de empleado | Ciudad | Mayor Calificación | Salario |
A100 | 2 | Doctor | 50000 |
A101 | 2 | bsc | 30000 |
A102 | 3 | msc | 45000 |
B101 | 1 | bsc | 25000 |
B102 | 4 | Doctor | 48000 |
C100 | 1 | msc | 30000 |
D103 | 4 | msc | 44000 |
¡Esto es todo lo que es la codificación guiada por destino! sencillo verdad? Exploremos ahora la codificación guiada media.
¿Qué es la técnica de codificación guiada media?
Codificaremos la columna de calificación más alta utilizando la técnica de codificación guiada media.
Paso 1 : Para cada calificación más alta encontraremos la media de todo el salario correspondiente.
Paso 2 : en lugar de clasificarlos en función del valor medio, codificaremos este valor medio correspondiente a la calificación más alta respectiva
Mayor Calificación | Salario medio |
Doctor | 49000 |
msc | 39666.67 |
licenciatura | 27500 |
paso 3 : Usaremos esto para codificar la columna de calificación más alta
ID de empleado | Ciudad | Mayor Calificación | Salario |
A100 | 2 | 49000 | 50000 |
A101 | 2 | 27500 | 30000 |
A102 | 3 | 39666.67 | 45000 |
B101 | 1 | 27500 | 25000 |
B102 | 4 | 49000 | 48000 |
C100 | 1 | 39666.67 | 30000 |
D103 | 4 | 39666.67 | 44000 |
Por lo tanto, estamos listos con nuestro conjunto de datos para preparar nuestro modelo.
Publicación traducida automáticamente
Artículo escrito por anuragnayak y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA