Resolución de problemas en Modelo Booleano y Modelo de Espacio Vectorial

Modelo booleano: 

Es un modelo de recuperación simple basado en la teoría de conjuntos y el álgebra booleana. Las consultas están diseñadas como expresiones booleanas que tienen una semántica precisa. La estrategia de recuperación se basa en un criterio de decisión binario. El modelo booleano considera que los términos del índice están presentes o ausentes en un documento.

Resolución de problemas: 

Considere 5 documentos con un vocabulario de 6 términos

  • documento 1 = ‘ término1 término3 ‘
  • documento 2 = ‘término 2 término4 término6’
  • documento 3 = ‘ término1 término2 término3 término4 término5 ‘
  • documento 4 = ‘ término1 término3 término6 ‘
  • documento 5 = ‘ término3 término4 ‘

Nuestros documentos en modelo booleano

  termino 1 término 2 término 3 término 4 término 5 término 6
documento 1  1 0 1 0 0 0
documento 2 0 1 0 1 0 1
documento 3 1 1 1 1 1 0
documento 4 1 0 1 0 0 1
documento 5 0 0 1 1 0 0

Considere la consulta

Encuentre el documento que consiste en term1 y term3 y no term2

term1 ∧ term3 ∧ ¬ term2

  termino 1  ¬término 2 término 3 término 4 término 5 término 6
documento 1 1 1 1 0 0 0
documento 2 0 0 0 1 0 1
documento 3  1 0 1 1 1 0
documento 4 1 1 1 0 0 1
documento 5 0 1 1 1 0 0

  • documento 1 : 1 ∧ 1∧ 1 = 1
  • documento 2 : 0 ∧ 0 ∧ 0 = 0
  • documento 3 : 1 ∧ 1 ∧ 0 = 0
  • documento 4 : 1 ∧ 1 ∧ 1 = 1
  • documento 5 : 0 ∧ 1 ∧ 1 = 0

Según el cálculo anterior , el documento 1 y el documento 4 son relevantes para la consulta dada.

Modelo vectorial:

El método para realizar las operaciones y las fórmulas requeridas para el cálculo están presentes en el documento anterior que es la parte 1. Considere la siguiente colección de documentos.

  • documento1 = ‘uno dos’
  • documento2 = ‘tres dos cuatro’
  • documento3 =’uno dos tres’
  • documento4 =’uno dos’

Las fórmulas utilizadas

tf_i,_j = \frac {freq_i,_j}{max_l(freq_l,_j)}

idf_i = log\frac{N}{n_i}

w_i,_j = tf_i * log\frac{N}{n_i}

sim(dj,q) = \frac{\sum_{i=1}^t w_i,_j * w_i,_q}{\sqrt{\sum_{i=1}^t w^2_i,_j} * \sqrt{\sum_{i=1}^t w^2_i,_q}}

Algunos términos aparecen tres veces, dos veces ya veces sólo una vez en el documento. El número total de documentos N=4. Por lo tanto, los valores IDF de los términos son:

one --> log2(4/3) = 0.4147
two --> log2(4/4) = 0
three --> log2(4/2) = 1
four -->log2(4/1) = 2

Representación en modelo booleano

  una dos Tres cuatro
documento1 1 1 0 0
documento2 0 1 1 1
documento3 1 1 1 0
documento4 1 1 0 0

Cálculo de la frecuencia del término

one --> 3/4 = 0.75
two --> 4/4 = 1
three --> 2/4 = 0.5
four --> 1/4 = 0.25

Cálculo de pesos ( tf * idf )

weight(one) --> 0.75 * 0.4147 = 0.3110
weight(two) --> 1 * 0 = 0
weight(three) --> 0.5 * 1 = 0.5
weight(four) --> 0.25 * 2 = 0.5

Representación del modelo vectorial en términos de pesos

  una dos Tres cuatro
documento1  0.3110 0 0 0
documento2  0 0 0.5 0.5
documento3  0.3110 0 0.5 0
documento4  0.3110 0 0 0

CONSULTA: Documento que contiene ‘ uno tres tres ‘

Cálculo de pesos para términos de consulta (frecuencia de términos)

  • peso(uno) –> 1/3 = 0.333
  • peso(tres) –> 2/3 = 0,667

Representación vectorial

  • Documento    \vec{d}_j = \{0.3110, 0, 0.5, 0.5 \}
  • Consulta \vec{q} = \{0.333, 0, 0.667, 0 \}

Cálculo de similitud: el 

sim(d1,q) = \frac{0.3110 * 0.333 + 0 * 0 + 0 * 0.667 + 0 * 0}{\sqrt{ (0.3110^2 + 0^2 + 0^2 + 0^2) } *\sqrt {(0.333^2+ 0^2 + 0.667^2 + 0^2)}} = 0.4466\\ sim(d2,q) = \frac{0 * 0.333 + 0 * 0 + 0.5 * 0.667 + 0.5 * 0}{\sqrt{ (0^2 + 0^2 + 0.5^2 + 0.5^2) } *\sqrt {(0.333^2 + 0^2 + 0.667^2 + 0^2)} }= 0.4001 \\ sim(d3,q) = \frac{0.3110 * 0.333 + 0 * 0 + 0.5 * 0.667 + 0 * 0}{\sqrt{ (0.3110^2 + 0^2 + 0.5^2 + 0^2)} * \sqrt{(0.333^2 + 0^2 + 0.667^2 + 0^2)}} = 0.9086\\ sim(d4,q) = \frac{0.3110 * 0.333 + 0 * 0 + 0 * 0.667 + 0 * 0}{\sqrt {(0.3110^2 + 0^2 + 0^2 + 0^2)} * \sqrt{(0.333^2 + 0^2 + 0.667^2 + 0^2)}} = 0.4466\\

Clasificación de los documentos, (para la clasificación hemos seguido el método de las estadísticas para el caso de asignar la misma clasificación a dos elementos diferentes) 

documento1 2do
documento2 4to
documento3
documento4 2do

Dado que la similitud entre el documento 3 es mayor que las similitudes entre los otros documentos, el tercer documento es más relevante para la consulta.

Publicación traducida automáticamente

Artículo escrito por deviprajwala y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *