Explorando datos categóricos

Variable Categórica/Dato (o Variable Nominal): Tales variables toman un número fijo y limitado de valores posibles. Por ejemplo: calificaciones, sexo, tipo de grupo sanguíneo, etc. Además, en el caso de las variables categóricas, el orden lógico no es el mismo que el de los datos categóricos, por ejemplo, «uno», «dos», «tres». Pero la clasificación de estas variables utiliza un orden lógico. Por ejemplo, el género es una variable categórica y tiene categorías: masculino y femenino y no hay un orden intrínseco de las categorías. Una variable puramente categórica es aquella que simplemente le permite asignar categorías, pero no puede ordenar claramente las variables. Términos relacionados con las métricas de variabilidad: 

  • Moda: valor que ocurre con mayor frecuencia en los datos dados Ejemplo- 
Data = ["Car", "Bat", "Bat", "Car", "Bat", "Bat", "Bat", "Bike"]
Mode = "Bat"
  • Valor esperado: cuando se trabaja en aprendizaje automático, las categorías deben asociarse con un valor numérico, para dar comprensión a la máquina. Esto da un valor promedio basado en la probabilidad de ocurrencia de una categoría, es decir, el valor esperado. Se calcula por –
-> Multiply each outcome by its probability of occurring.
-> Sum these values
  • Por lo tanto, es la suma de los valores multiplicada por su probabilidad de ocurrencia que se usa a menudo para sumar los niveles de las variables de los factores.
  • Gráficos de barras: Frecuencia de cada categoría trazada como barras. Cargando Bibliotecas – 

Python3

import matplotlib.pyplot as plt
import numpy as np
  • Datos – 

Python3

label = ['Car', 'Bike', 'Truck', 'Cycle', 'Jeeps', 'Ambulance']
no_vehicle = [941, 854, 4595, 2125, 942, 509]
  • Datos de indexación – 

Python3

index = np.arange(len(label))
 
print ("Total Labels : ", len(label))
print ("Indexing : ", index)
  • Producción:
Total Labels :  6
Indexing :  [0 1 2 3 4 5]
  • Gráfico de barras – 

Python3

plt.bar(index, no_vehicle)
plt.xlabel('Type', fontsize = 15)
plt.ylabel('No of Vehicles', fontsize = 15)
plt.xticks(index, label, fontsize = 10, rotation = 30)
plt.title('Market Share for Each Genre 1995-2017')
 
plt.show()
  • Producción:
  • Gráficos circulares: Frecuencia de cada categoría trazada como circular o cuñas. Es un gráfico circular, donde la longitud del arco de cada rebanada es proporcional a la cantidad que representa. 

Python3

plt.figure(figsize =(8, 8))
plt.pie(no_vehicle, labels = label,
        startangle = 90, autopct ='%.1f %%')
plt.show()
  • Producción:

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *