Integración de datos en minería de datos

La integración de datos es una técnica de preprocesamiento de datos que combina datos de múltiples fuentes de datos heterogéneas en un almacén de datos coherente y proporciona una vista unificada de los datos. Estas fuentes pueden incluir varios cubos de datos, bases de datos o archivos planos. 

Los enfoques de integración de datos se definen formalmente como triple <G, S, M> donde 
G representa el esquema global, 
S representa la fuente heterogénea del esquema, 
M representa el mapeo entre las consultas de la fuente y el esquema global. 

Existen principalmente 2 enfoques principales para la integración de datos: uno es el «enfoque de acoplamiento estrecho» y el otro es el «enfoque de acoplamiento flexible». 

Acoplamiento apretado: 

  • Aquí, un almacén de datos se trata como un componente de recuperación de información.
  • En este acoplamiento, los datos se combinan desde diferentes fuentes en una sola ubicación física a través del proceso de ETL: extracción, transformación y carga.

Bajo acoplamiento:  

  • Aquí, se proporciona una interfaz que toma la consulta del usuario, la transforma de una manera que la base de datos de origen pueda entender y luego envía la consulta directamente a las bases de datos de origen para obtener el resultado.
  • Y los datos solo permanecen en las bases de datos de origen reales.

Problemas en la integración de datos: 
hay tres problemas a considerar durante la integración de datos: integración de esquemas, detección de redundancia y resolución de conflictos de valores de datos. Estos se explican brevemente a continuación. 

1. Integración de esquemas: 

  • Integre metadatos de diferentes fuentes.
  • Las entidades del mundo real de múltiples fuentes se conocen como el problema de identificación de entidades.

2. Redundancia: 

  • Un atributo puede ser redundante si puede derivarse u obtenerse de otro atributo o conjunto de atributos.
  • Las inconsistencias en los atributos también pueden causar redundancias en el conjunto de datos resultante.
  • Algunas redundancias pueden detectarse mediante análisis de correlación.

3. Detección y resolución de conflictos de valor de datos : 

  • Este es el tercer problema crítico en la integración de datos.
  • Los valores de atributos de diferentes fuentes pueden diferir para la misma entidad del mundo real.
  • Un atributo en un sistema puede registrarse a un nivel de abstracción más bajo que el “mismo” atributo en otro.

Publicación traducida automáticamente

Artículo escrito por sanjoy_62 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *