¿Cómo funciona la similitud de Wu & Palmer ?
Calcula la relación considerando las profundidades de los dos synsets en las taxonomías de WordNet, junto con la profundidad del LCS (Least Common Subsumer).
La puntuación puede ser 0 < puntuación <= 1. La puntuación nunca puede ser cero porque la profundidad de la LCS nunca es cero (la profundidad de la raíz de la taxonomía es uno).
Calcula la similitud en función de qué tan similares son los sentidos de la palabra y dónde ocurren los Synsets entre sí en el árbol de hiperónimos.
Código #1: Introducción a Synsets
Python3
from nltk.corpus import wordnet syn1 = wordnet.synsets('hello')[0] syn2 = wordnet.synsets('selling')[0] print ("hello name : ", syn1.name()) print ("selling name : ", syn2.name())
Producción :
hello name : hello.n.01 selling name : selling.n.01
Código #2: Similitud Wu
Python3
syn1.wup_similarity(syn2)
Producción :
0.26666666666666666
¡ Hola y la venta es aparentemente un 27% similar! Esto se debe a que comparten hiperónimos comunes más arriba de los dos.
Código #3: Revisemos los hiperónimos intermedios.
Python3
sorted(syn1.common_hypernyms(syn2))
Producción :
[Synset('abstraction.n.06'), Synset('entity.n.01')]
Una de las métricas centrales utilizadas para calcular la similitud es el camino más corto, la distancia entre los dos Synsets y su hiperónimo común.
Código #4: Entendamos el uso del hiperónimo.
Python3
ref = syn1.hypernyms()[0] print ("Self comparison : ", syn1.shortest_path_distance(ref)) print ("Distance of hello from greeting : ", syn1.shortest_path_distance(syn2)) print ("Distance of greeting from hello : ", syn2.shortest_path_distance(syn1))
Producción :
Self comparison : 1 Distance of hello from greeting : 11 Distance of greeting from hello : 11
Nota: La puntuación de similitud es muy alta, es decir, están a muchos pasos de distancia porque no son tan similares. Los códigos mencionados aquí usan ‘sustantivo’, pero se puede usar cualquier parte del discurso (POS).
Publicación traducida automáticamente
Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA