La integración de datos es una técnica de preprocesamiento de datos que combina datos de múltiples fuentes de datos heterogéneas en un almacén de datos coherente y proporciona una vista unificada de los datos. Estas fuentes pueden incluir varios cubos de datos, bases de datos o archivos planos.
Los enfoques de integración de datos se definen formalmente como triple <G, S, M> donde
G representa el esquema global,
S representa la fuente heterogénea del esquema,
M representa el mapeo entre las consultas de la fuente y el esquema global.
Existen principalmente 2 enfoques principales para la integración de datos: uno es el «enfoque de acoplamiento estrecho» y el otro es el «enfoque de acoplamiento flexible».
Acoplamiento apretado:
- Aquí, un almacén de datos se trata como un componente de recuperación de información.
- En este acoplamiento, los datos se combinan desde diferentes fuentes en una sola ubicación física a través del proceso de ETL: extracción, transformación y carga.
Bajo acoplamiento:
- Aquí, se proporciona una interfaz que toma la consulta del usuario, la transforma de una manera que la base de datos de origen pueda entender y luego envía la consulta directamente a las bases de datos de origen para obtener el resultado.
- Y los datos solo permanecen en las bases de datos de origen reales.
Problemas en la integración de datos:
hay tres problemas a considerar durante la integración de datos: integración de esquemas, detección de redundancia y resolución de conflictos de valores de datos. Estos se explican brevemente a continuación.
1. Integración de esquemas:
- Integre metadatos de diferentes fuentes.
- Las entidades del mundo real de múltiples fuentes se conocen como el problema de identificación de entidades.
2. Redundancia:
- Un atributo puede ser redundante si puede derivarse u obtenerse de otro atributo o conjunto de atributos.
- Las inconsistencias en los atributos también pueden causar redundancias en el conjunto de datos resultante.
- Algunas redundancias pueden detectarse mediante análisis de correlación.
3. Detección y resolución de conflictos de valor de datos :
- Este es el tercer problema crítico en la integración de datos.
- Los valores de atributos de diferentes fuentes pueden diferir para la misma entidad del mundo real.
- Un atributo en un sistema puede registrarse a un nivel de abstracción más bajo que el “mismo” atributo en otro.