Tipos de datos complejos en minería de datos

Los tipos de datos complejos requieren técnicas avanzadas de minería de datos. Algunos de los tipos de datos complejos son datos de secuencia que incluyen series temporales, secuencias simbólicas y secuencias biológicas. Los pasos de preprocesamiento adicionales son necesarios para la extracción de datos de estos tipos de datos complejos.

1. Minería de datos de series temporales:

En los datos de series de tiempo, los datos se miden como la serie larga de datos numéricos o textuales en intervalos de tiempo iguales por minuto, por hora o por día. La minería de datos de series temporales se realiza sobre los datos obtenidos de los mercados de valores, datos científicos y datos médicos. En la minería de series temporales, no es posible encontrar los datos que coincidan exactamente con la consulta dada. Empleamos el método de búsqueda de similitud que encuentra las secuencias de datos que son similares a la string de consulta dada. En el método de búsqueda de similitud, la coincidencia de subsecuencias se realiza para encontrar las subsecuencias que son similares a una string de consulta dada. Para realizar la búsqueda de similitud, reducción de dimensionalidad de datos complejos para transformar los datos de series temporales en datos numéricos.

2. Minería de patrones secuenciales en secuencias simbólicas:

Las secuencias simbólicas se componen de largas secuencias de datos nominales, que cambian dinámicamente su comportamiento en intervalos de tiempo. Ejemplos de Secuencias Simbólicas incluyen secuencias de compras de clientes en línea así como secuencias de eventos de experimentos. La minería de secuencias simbólicas se denomina minería secuencial. Un patrón secuencial es una subsecuencia que existe con mayor frecuencia en un conjunto de secuencias. por lo que encuentra la subsecuencia más frecuente en un conjunto de secuencias para realizar la minería. Se han construido muchos algoritmos escalables para descubrir la subsecuencia frecuente. También hay algoritmos para extraer patrones secuenciales multidimensionales y multinivel.

3. Minería de datos de secuencias biológicas:

Las secuencias biológicas son las secuencias largas de nucleótidos y se requiere la extracción de datos de secuencias biológicas para encontrar las características del ADN de los humanos. El análisis de secuencias biológicas es el primer paso de la minería de datos para comparar la alineación de las secuencias biológicas. Dos especies son similares entre sí solo si sus secuencias de nucleótidos (ADN, ARN) y proteínas son cercanas y similares. Durante la extracción de datos de secuencias biológicas, se mide el grado de similitud entre las secuencias de nucleótidos. El grado de similitud obtenido por el alineamiento de secuencias de nucleótidos es fundamental para determinar la homología entre dos secuencias.

Puede darse la situación de alineamiento de dos o más secuencias biológicas de entrada identificando secuencias similares con subsecuencias largas. Los aminoácidos también llamados secuencias de proteínas también se comparan y alinean.

4. Minería de patrones gráficos:

La minería de patrones de gráficos se puede realizar utilizando enfoques basados en el crecimiento de patrones y basados en Apriori. Podemos minar los subgrafos del grafo y el conjunto de grafos cerrados. Un gráfico cerrado g es el gráfico que no tiene un supergráfico que tenga el mismo número de soportes que g. Graph Pattern Mining se aplica a diferentes tipos de gráficos, como gráficos frecuentes, gráficos coherentes y gráficos densos. También podemos mejorar la eficiencia de la minería aplicando las restricciones del usuario en los patrones gráficos. Los patrones gráficos son de dos tipos. Gráficos homogéneos donde los Nodes o enlaces del gráfico son del mismo tipo por tener características similares. En los patrones de gráficos heterogéneos, los Nodes y enlaces son de diferentes tipos.

5. Modelado Estadístico de Redes:

Una red es una colección de Nodes donde cada Node representa los datos y los Nodes están vinculados a través de los bordes, lo que representa las relaciones entre los objetos de datos. Si todos los Nodes y enlaces que conectan los Nodes son del mismo tipo, entonces la red es homogénea, como una red de amigos o una red de páginas web. Si los Nodes y los enlaces que conectan los Nodes son de diferentes tipos, entonces la red es heterogénea, como las redes de atención médica (que vinculan los diferentes parámetros, como médicos, enfermeras, pacientes, enfermedades en la red). Graph Pattern Mining se puede aplicar más a la red para derivar el conocimiento y los patrones útiles de la red.

6. Minería de datos espaciales:

Los datos espaciales son los datos relacionados con el espacio geográfico que se almacenan en grandes repositorios de datos. Los datos espaciales se representan en formato “vectorial” y en formato multimedia georreferenciado. Una base de datos espacial se construye a partir de grandes almacenes de datos geográficos mediante la integración de datos geográficos de múltiples fuentes de áreas. podemos construir cubos de datos espaciales que contienen información sobre las dimensiones y medidas espaciales. Es posible realizar las operaciones OLAP en los datos espaciales para el análisis de datos espaciales. La minería de datos espaciales se realiza en almacenes de datos espaciales, bases de datos espaciales y otros depósitos de datos geoespaciales. La minería de datos espaciales descubre conocimiento sobre las áreas geográficas. El preprocesamiento de datos espaciales implica varias operaciones como agrupación espacial, clasificación espacial, modelado espacial,

7. Minería de datos del sistema ciberfísico:

Los datos del sistema ciberfísico se pueden extraer construyendo un gráfico o una red de datos. Un sistema ciberfísico (CPS) es una red heterogénea que consiste en una gran cantidad de Nodes interconectados que almacenan pacientes o información médica. Los enlaces en la red CPS representan la relación entre los Nodes. Los sistemas ciberfísicos almacenan datos dinámicos, inconsistentes e interdependientes que contienen información espaciotemporal. La extracción de datos ciberfísicos vincula la situación como una consulta para acceder a los datos de una gran base de datos de información e implica cálculos y análisis en tiempo real para generar respuestas del sistema CPS. El análisis CPS requiere detección de eventos raros y análisis de anomalías en flujos de datos ciberfísicos, en redes ciberfísicas,

8. Minería de datos multimedia:

Los objetos de datos multimedia incluyen datos de imagen, datos de video, datos de audio, hipervínculos de sitios web y enlaces. La minería de datos multimedia trata de encontrar patrones interesantes a partir de bases de datos multimedia. Esto incluye el procesamiento de datos digitales y realiza tareas como procesamiento de imágenes, clasificación de imágenes, minería de datos de video y audio, y reconocimiento de patrones. La minería de datos multimedia se está convirtiendo en el área de investigación más interesante porque la mayoría de las plataformas de redes sociales como Twitter, los datos de Facebook se pueden analizar a través de esto y derivar tendencias y patrones interesantes.

9. Minería de datos web:

La minería web es esencial para descubrir patrones y conocimientos cruciales de la web. La minería de contenido web analiza datos de varios sitios web que incluyen las páginas web y los datos multimedia, como imágenes en las páginas web. La minería web se realiza para comprender el contenido de las páginas web, los usuarios únicos del sitio web, los enlaces de hipertexto únicos, la relevancia y clasificación de la página web, los resúmenes del contenido de la página web, el tiempo que los usuarios pasaron en el sitio web en particular y comprender los patrones de búsqueda de los usuarios. La minería web también descubre el mejor motor de búsqueda y determina el algoritmo de búsqueda que utiliza. Por lo tanto, ayuda a mejorar la eficiencia de la búsqueda y encuentra el mejor motor de búsqueda para los usuarios.

10. Minería de datos de texto:

La minería de texto es el subcampo de la minería de datos, el aprendizaje automático, el procesamiento del lenguaje natural y las estadísticas. La mayor parte de la información en nuestra vida diaria se almacena como texto, como artículos de noticias, documentos técnicos, libros, mensajes de correo electrónico, blogs. Text Mining nos ayuda a recuperar información de alta calidad del texto, como análisis de sentimientos, resumen de documentos, categorización de texto, agrupación de texto. Aplicamos modelos de aprendizaje automático y técnicas de PNL para obtener información útil del texto. Esto se hace descubriendo los patrones y tendencias ocultos por medios como el aprendizaje de patrones estadísticos y el modelado de lenguaje estadístico. Para realizar la minería de texto, necesitamos preprocesar el texto aplicando las técnicas de derivación y lematización para convertir los datos textuales en vectores de datos.

11. Minería de datos espaciotemporales:

Los datos que están relacionados tanto con el espacio como con el tiempo son datos espaciotemporales. La minería de datos espaciotemporales recupera patrones y conocimientos interesantes a partir de datos espaciotemporales. La minería de datos espaciotemporales nos ayuda a encontrar el valor de las tierras, la edad de las rocas y piedras preciosas, predecir los patrones climáticos. La minería de datos espaciotemporales tiene muchas aplicaciones prácticas como GPS en teléfonos móviles, temporizadores, servicios de mapas basados en Internet, servicios meteorológicos, satélite, RFID, sensores.

12. Flujos de datos de minería:

Los datos de flujo son los datos que pueden cambiar dinámicamente y son ruidosos, inconsistentes y contienen características multidimensionales de diferentes tipos de datos. Entonces, estos datos se almacenan en sistemas de base de datos NoSql. El volumen de datos de flujo es muy alto y este es el desafío para la extracción efectiva de datos de flujo. Mientras extraemos los flujos de datos, debemos realizar tareas como la agrupación, el análisis de valores atípicos y la detección en línea de eventos raros en los flujos de datos.

Publicación traducida automáticamente

Artículo escrito por hasani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA