Minería de datos: datos de series temporales, secuencias simbólicas y biológicas

La minería de datos se refiere a extraer o extraer conocimiento de grandes cantidades de datos. En otras palabras, la minería de datos es la ciencia, el arte y la tecnología de descubrir cuerpos de datos grandes y complejos para descubrir patrones útiles. Los teóricos y los profesionales buscan continuamente técnicas mejoradas para hacer que el proceso sea más eficiente, rentable y preciso. 

Este artículo analiza los datos de secuencia. La evaluación de los datos alcanzó la extensión máxima y aún puede examinarse en el futuro. Para generalizar la evaluación de datos los clasificamos como Datos de Secuencia, Gráficos y Minería de Redes, otro tipo de datos.

Data Mining

Una secuencia es una lista ordenada de eventos. Los datos de secuencias se clasifican en función de sus características como:

  • Datos de series temporales (datos con respecto al tiempo)
  • Datos simbólicos (datos con vueltas en un intervalo de tiempo)
  • Datos biológicos (datos relacionados con el ADN y la proteína)

Datos de series de tiempo:

En este tipo de secuencia, los datos son de tipo numérico registrados a un nivel regular. Son generados por un proceso económico como análisis de Bolsa, Observaciones Médicas. Son útiles para estudiar fenómenos naturales.

Hoy en día, estas series de tiempo se utilizan para aproximaciones de datos por partes para su posterior análisis. En estos datos de series temporales, encontramos una subsecuencia que coincide con la consulta que buscamos.

  • Pronóstico de series temporales: el pronóstico es un método para hacer predicciones basadas en datos pasados ​​​​y presentes para saber qué sucederá en el futuro. El análisis de tendencias es un método para pronosticar series temporales. Es una función que genera patrones históricos en series temporales que se utilizan en predicciones a corto y largo plazo. Podemos obtener varios patrones en series de tiempo como movimientos cíclicos, movimientos de tendencia, movimientos estacionales como vemos que son con respecto al tiempo o la temporada. ARIMA, SARIMA, el modelado de series de tiempo de memoria larga son algunos de los métodos populares para dicho análisis.

Datos simbólicos:

Este tipo de conjunto ordenado de elementos o eventos se registra con o sin una noción concreta de tiempo. Algunas secuencias simbólicas, como las secuencias de compras de los clientes y los flujos de clics web, son ejemplos de datos simbólicos. La minería de patrones secuenciales se utiliza principalmente para la secuencia simbólica

La coincidencia de patrones basada en restricciones es una de las mejores formas de interactuar con datos definidos por el usuario. A priori es un algoritmo utilizado para este tipo de análisis. A continuación, se muestra un ejemplo de una fecha simbólica en la que vemos que los clientes c1 y c2 compran productos en diferentes intervalos de tiempo.

Tid Tiempo Cid Evento (compra de productos) 
t1 11:45:30 c1 trigo, arroz, fruta
t2 11:36:50 c2 arroz, fruta
t1 12:00:01 c1 jugo, arroz
t2 01:00:34 c2 azúcar, leche

Datos biológicos:

Están hechos de ADN y secuencias de proteínas. Son muy largos y complicados, pero tienen un significado oculto. Estos tipos de datos se utilizan para la secuencia de nucleótidos o aminoácidos. Estos análisis se utilizan para alinear, indexar, analizar secuencias biológicas y juegan un papel crucial en la bioinformática y la biología moderna. Los árboles de sustitución se utilizan para encontrar las probabilidades de los aminoácidos y las probabilidades de las intersecciones. BLAST-Basic Local Alignment Search Tool es la herramienta más eficaz para la secuenciación biológica. 

Publicación traducida automáticamente

Artículo escrito por aravindharavindh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *