Medidas de distancia en minería de datos

El agrupamiento consiste en agrupar ciertos objetos que son similares entre sí, se puede utilizar para decidir si dos elementos son similares o diferentes en sus propiedades.

En un sentido de minería de datos , la medida de similitud es una distancia con dimensiones que describen las características del objeto. Eso significa que si la distancia entre dos puntos de datos es pequeña , existe un alto grado de similitud entre los objetos y viceversa. La similitud es subjetiva y depende en gran medida del contexto y la aplicación. Por ejemplo, la similitud entre las verduras se puede determinar a partir de su sabor, tamaño, color, etc.

La mayoría de los enfoques de agrupación utilizan medidas de distancia para evaluar las similitudes o diferencias entre un par de objetos, las medidas de distancia más populares utilizadas son:

1. Distancia
euclidiana: la distancia euclidiana se considera la métrica tradicional para problemas de geometría. Puede explicarse simplemente como la distancia ordinaria entre dos puntos. Es uno de los algoritmos más utilizados en el análisis de conglomerados. Uno de los algoritmos que utilizan esta fórmula sería K-mean . Calcula matemáticamente la raíz de las diferencias al cuadrado entre las coordenadas entre dos objetos.

\begin{aligned} d(\mathbf{p}, \mathbf{q})=d(\mathbf{q}, \mathbf{p}) &=\sqrt{\left(q_{1}-p_{1}\right)^{2}+\left(q_{2}-p_{2}\right)^{2}+\cdots+\left(q_{n}-p_{n}\right)^{2}} \\ &=\sqrt{\sum_{i=1}^{n}\left(q_{i}-p_{i}\right)^{2}} \end{aligned}

Figura – Distancia euclidiana

2. Distancia Manhattan:
Esto determina la diferencia absoluta entre el par de coordenadas.

Supongamos que tenemos dos puntos P y Q para determinar la distancia entre estos puntos, simplemente tenemos que calcular la distancia perpendicular de los puntos desde el eje X y el eje Y.
En un plano con P en la coordenada (x1, y1) y Q en (x2, y2).

Distancia de Manhattan entre P y Q = |x1 – x2| + |y1 – y2|

Aquí la distancia total de la línea roja da la distancia de Manhattan entre ambos puntos.

3. Índice de Jaccard:
la distancia de Jaccard mide la similitud de los dos elementos del conjunto de datos como la intersección de esos elementos dividida por la unión de los elementos de datos.

J(A, B)=\frac{|A \cap B|}{|A \cup B|}=\frac{|A \cap B|}{|A|+|B|-|A \cap B|}

Figura – Índice Jaccard

4. Distancia de Minkowski:
Es la forma generalizada de la Medida de Distancia Euclidiana y de Manhattan. En un espacio N-dimensional , un punto se representa como,

(x1, x2, ..., xN) 

Considere dos puntos P1 y P2:

P1: (X1, X2, ..., XN)
P2: (Y1, Y2, ..., YN) 

Entonces, la distancia de Minkowski entre P1 y P2 se da como:

\sqrt[p]{(x 1-y 1)^{p}+(x 2-y 2)^{p}+\ldots+(x N-y N)^{p}}

  • Cuando p = 2 , la distancia de Minkowski es la misma que la distancia euclidiana .
  • Cuando p = 1 , la distancia de Minkowski es la misma que la distancia de Manhattan .

5. Índice
del coseno: la medida de la distancia del coseno para la agrupación determina el coseno del ángulo entre dos vectores dado por la siguiente fórmula.

\operatorname{sim}(A, B)=\cos (\theta)=\frac{A \cdot B}{\|A\| B \|}
Here (theta) gives the angle between two vectors and A, B are n-dimensional vectors.

Figura – Distancia del coseno

Publicación traducida automáticamente

Artículo escrito por pcp21599 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *