Técnicas de codificación ordinal guiada

Hay específicamente dos tipos de técnicas de codificación guiada para características categóricas, a saber: codificación ordinal guiada por objetivo y codificación ordinal guiada por media.

Herramientas y tecnologías necesarias:

  1. Comprensión de la biblioteca de pandas
  2. Conocimientos básicos de cómo funciona un Dataframe de pandas.
  3. Jupyter Notebook o Google Collab o cualquier plataforma similar.

¿Qué es la codificación?

 La codificación es la técnica que utilizamos para convertir la entrada categórica en un conjunto de datos en datos numéricos. Digamos que tenemos un conjunto de datos de empleados en el que hay una columna que contiene información sobre la ubicación de la ciudad de un empleado. Ahora queremos usar estos datos para formar un modelo que pueda predecir el salario de un empleado en función de sus otros detalles. Obviamente, este modelo no entiende nada sobre el nombre de la ciudad. Entonces, ¿cómo harás que el modelo lo sepa? Por ejemplo, un empleado que vive en una ciudad metropolitana gana más que los empleados de una ciudad pequeña. De alguna manera tenemos que hacer que el modelo sepa sobre esto. Sí, la forma en que piensas en tu mente es lo que haremos a través del código. Como es obvio, estamos pensando en clasificar la ciudad en función de alguna especificación. Estas formas de convertir datos categóricos en datos numéricos son nuestro objetivo. 

¿Qué es la técnica de codificación guiada por objetivos?

En esta técnica, tomaremos la ayuda de nuestra variable de destino para codificar los datos categóricos. entendamos con un ejemplo,

ID de empleado Ciudad  Mayor Calificación Salario
A100 Delhi Doctor 50000
A101 Delhi bsc 30000
A102 Bombay msc 45000
B101 pune bsc 25000
B102 Calcuta Doctor 48000
C100 pune msc 30000
D103 Calcuta msc 44000

Intentemos codificar la columna de la ciudad usando la codificación guiada de destino. Aquí nuestra variable objetivo es el salario.

paso 1 : ordenar las ciudades según el salario correspondiente. Ahora, para hacer esto, tomaremos la media de todos los salarios de esa ciudad en particular.

paso 2 : Basado en la media del salario, el orden descendente de la ciudad es:

                                                         kolkata>mumbai>delhi>pune

Paso 3 : Según este orden, clasificaremos las ciudades.

Ciudad Rango
Calcuta 4
Bombay 3
Delhi 2
pune 1

(nota: también puedes clasificarlos en el orden opuesto)

Paso 4 : usaremos esta información para codificar la columna Ciudad del conjunto de datos.

ID de empleado  Ciudad Mayor Calificación Salario
A100 2 Doctor 50000
A101 2 bsc 30000
A102 3 msc 45000
B101 1 bsc 25000
B102 4 Doctor 48000
C100 1 msc 30000
D103 4 msc 44000

¡Esto es todo lo que es la codificación guiada por destino! sencillo verdad? Exploremos ahora la codificación guiada media.

¿Qué es la técnica de codificación guiada media?

Codificaremos la columna de calificación más alta utilizando la técnica de codificación guiada media.

Paso 1 : Para cada calificación más alta encontraremos la media de todo el salario correspondiente.

Paso 2 : en lugar de clasificarlos en función del valor medio, codificaremos este valor medio correspondiente a la calificación más alta respectiva

Mayor Calificación Salario medio
Doctor 49000
msc 39666.67
licenciatura 27500

paso 3 : Usaremos esto para codificar la columna de calificación más alta

ID de empleado Ciudad Mayor Calificación Salario
A100 2 49000 50000
A101 2 27500 30000
A102 3 39666.67 45000
B101 1 27500 25000
B102 4 49000 48000
C100 1 39666.67 30000
D103 4 39666.67 44000

Por lo tanto, estamos listos con nuestro conjunto de datos para preparar nuestro modelo.

Publicación traducida automáticamente

Artículo escrito por anuragnayak y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *