STING – Grilla de Información Estadística en Minería de Datos

STING es una técnica de agrupamiento basada en cuadrículas. En STING, el conjunto de datos se divide recursivamente de manera jerárquica. Después del conjunto de datos, cada celda se divide en un número diferente de celdas. Y después de la celda, se recopilan las medidas estadísticas de la celda, lo que ayuda a responder la consulta lo más rápido posible.

Método basado en cuadrícula en minería de datos:

En los métodos basados ​​en cuadrículas, el espacio de instancia se divide en una estructura de cuadrícula. A continuación, se aplican técnicas de agrupamiento utilizando las celdas de la cuadrícula, en lugar de puntos de datos individuales, como unidades base. La mayor ventaja de este método es mejorar el tiempo de procesamiento.

Cuadrícula de información estadística (STING):

Un STING es una técnica de agrupamiento basada en cuadrículas. Utiliza una estructura de datos de cuadrícula multidimensional que cuantifica el espacio en un número finito de celdas. En lugar de centrarse en los puntos de datos, se centra en el espacio de valor que rodea a los puntos de datos.

En STING, el área espacial se divide en celdas rectangulares y varios niveles de celdas con diferentes niveles de resolución. Las celdas de alto nivel se dividen en varias celdas de bajo nivel.

En STING, la información estadística sobre los atributos de cada celda, como los valores medio, máximo y mínimo, se calcula previamente y se almacena como parámetros estadísticos. Estos parámetros estadísticos son útiles para el procesamiento de consultas y otras tareas de análisis de datos.

Simple STING LAYERS VIEW (Hierarchy Structure)

 

El parámetro estadístico de las celdas de nivel superior se puede calcular fácilmente a partir de los parámetros de las celdas de nivel inferior.

Cómo funciona STING:

Paso 1: determina una capa, para empezar.

Paso 2: para cada celda de esta capa, calcula el intervalo de confianza o el rango estimado de probabilidad de que esta celda sea relevante para la consulta.

Paso 3: A partir del cálculo del intervalo anterior, etiqueta la celda como relevante o no relevante.

Paso 4: Si esta capa es la capa inferior, vaya al punto 6, de lo contrario, vaya al punto 5.

Paso 5: Desciende un nivel en la estructura jerárquica. Vaya al punto 2 para aquellas celdas que forman la celda relevante de la capa de alto nivel.

Paso 6: Si se cumple la especificación de la consulta pasar al punto 8, caso contrario pasar al punto 7.

Paso 7: recupere los datos que caen en las celdas relevantes y realice un procesamiento adicional. Devuelve el resultado que cumple con el requisito de la consulta. Ir al punto 9.

Paso 8: Encuentra las regiones de las celdas relevantes. Devuelve aquellas regiones que cumplen con el requisito de la consulta. Ir al punto 9.

Paso 9: detener o terminar.

ventajas:

  • La computación basada en cuadrículas es independiente de las consultas porque las estadísticas almacenadas en cada celda representan un resumen de los datos en las celdas de la cuadrícula y son independientes de las consultas. 
  • La estructura de cuadrícula facilita el procesamiento paralelo y las actualizaciones incrementales. 

Desventaja:

  • La principal desventaja de Sting (Cuadrícula de estadísticas). Como sabemos, todos los límites de los clústeres son horizontales o verticales, por lo que no se detectan límites diagonales.

Publicación traducida automáticamente

Artículo escrito por ishukatiyar16 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *