Minería de reglas de asociación en programación R

La minería de reglas de asociación en lenguaje R es un algoritmo no lineal no supervisado para descubrir cómo se asocian los elementos entre sí. En él, la Minería frecuente muestra qué elementos aparecen juntos en una transacción o relación. Es utilizado principalmente por minoristas, tiendas de comestibles, un mercado en línea que tiene una gran base de datos transaccional. De la misma manera, cuando cualquier red social en línea, mercado y sitios web de comercio electrónico saben lo que comprará a continuación utilizando motores de recomendaciones. Las recomendaciones que obtiene sobre el artículo o la variable, mientras verifica el pedido, se deben a la minería de reglas de asociación abordada en datos de clientes anteriores. Hay tres formas comunes de medir la asociación:

  • Apoyo
  • Confianza
  • Levantar

Teoría

En la minería de reglas de asociación, la asociación de medidas de soporte, confianza y elevación.

El soporte dice qué tan popular es un artículo, medido en la proporción de transacciones en las que aparece un conjunto de artículos.

La confianza indica la probabilidad de que se compre el artículo Y cuando se compra el artículo X, expresado como {X -> Y}.
Así, se mide por la proporción de transacciones con el artículo X en las que también aparece el artículo Y. La confianza podría tergiversar la importancia de la asociación.

Lift dice la probabilidad de que se compre el artículo Y cuando se compra el artículo X mientras se controla la popularidad del artículo Y.

El algoritmo a priori también se utiliza en la minería de reglas de asociación para descubrir conjuntos de elementos frecuentes en la base de datos de transacciones. Fue propuesto por Agrawal & Srikant en 1993.

Ejemplo:
Un cliente hace 4 transacciones contigo. En la primera transacción, compra 1 manzana, 1 cerveza, 1 arroz y 1 pollo. En la segunda transacción, compra 1 manzana, 1 cerveza, 1 arroz. En la tercera transacción, compra 1 manzana, 1 cerveza solamente. En la cuarta transacción, compra 1 manzana y 1 naranja.

Support(Apple) = 4/4 

So, Support of {Apple} is 4 out of 4 or 100%

Confidence(Apple -> Beer) =  Support(Apple, Beer)/Support(Apple)
                          = (3/4)/(4/4)
                          = 3/4

So, Confidence of {Apple -> Beer} is 3 out of 4 or 75%

Lift(Beer -> Rice) = Support(Beer, Rice)/(Support(Beer) * Support(Rice))
                   = (2/4)/(3/4) * (2/4)
                   = 1.33

So, Lift value is greater than 1 implies Rice is likely to be bought if Beer is bought.

El conjunto de datos

Market BasketEl conjunto de datos consta de 15010 observaciones con características o columnas de Fecha, Hora, Transacción y Artículo. La variable o columna de fecha va del 30/10/2016 al 09/04/2017. El tiempo es una variable categórica que indica la hora. La transacción es una variable cuantitativa que ayuda en la diferenciación de las transacciones. El artículo es una variable categórica que se vincula con un producto.

# Loading data
dataset = read.transactions('Market_Basket_Optimisation.csv', 
                           sep = ', ', rm.duplicates = TRUE)
  
# Structure 
str(dataset)

Realizar minería de reglas de asociación en un conjunto de datos

Usando el algoritmo de minería de reglas de asociación en el conjunto de datos que incluye 15010 observaciones.

# Installing Packages
install.packages("arules")
install.packages("arulesViz")
  
# Loading package
library(arules)
library(arulesViz)
  
# Fitting model
# Training Apriori on the dataset
set.seed = 220 # Setting seed
associa_rules = apriori(data = dataset, 
                        parameter = list(support = 0.004, 
                                         confidence = 0.2))
  
# Plot
itemFrequencyPlot(dataset, topN = 10)
  
# Visualising the results
inspect(sort(associa_rules, by = 'lift')[1:10])
plot(associa_rules, method = "graph", 
     measure = "confidence", shading = "lift")

Producción:

  • Modelo asocia_rules:

    La longitud mínima del modelo es 1, la longitud máxima es 10 y las reglas de destino con soporte absoluto cuentan 30.

  • Gráfico de frecuencia de elementos:

    Así, el agua mineral es el producto más vendido seguido de los huevos, los espaguetis, las patatas fritas, etc.

  • Visualizando el modelo:

    Entonces, se muestra la trama de gráficos de 100.

Por lo tanto, la minería de reglas de asociación se usa ampliamente en los sistemas de recomendación en el comercio electrónico, el mercado en línea y los sitios web de redes sociales, etc., y se usa ampliamente en la industria.

Publicación traducida automáticamente

Artículo escrito por dhruv5819 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *