La integración de datos es una de las principales tareas del preprocesamiento de datos. La integración de múltiples bases de datos o archivos de datos en un único almacén de datos idénticos se conoce como integración de datos. La integración de datos generalmente se realiza para crear conjuntos de datos para algoritmos de aprendizaje automático y para predecir la información estadística de los datos durante la extracción de datos. Integramos datos de varios recursos como transacciones bancarias, facturas, registros de clientes, Twitter, publicaciones de blog, datos de imagen, audio o video, archivos de intercambio electrónico de datos (EDI), hojas de cálculo y datos de sensores.
La minería de datos a menudo requiere integración de datos, la combinación de datos de múltiples almacenes de datos. que combina datos de múltiples fuentes en un almacén de datos coherente, como en el almacenamiento de datos. Estas fuentes pueden incluir varias bases de datos, cubos de datos o archivos planos. Hay una serie de cuestiones a tener en cuenta durante la integración de datos, como la integración de esquemas y la coincidencia de objetos.
Por lo tanto, una integración cuidadosa puede ayudar a reducir y evitar redundancias e inconsistencias en el conjunto de datos resultante. Esto puede ayudar a mejorar la precisión y la velocidad del proceso de extracción de datos posterior. La heterogeneidad semántica y la estructura de los datos plantean grandes desafíos en la integración de datos. ¿Cómo podemos hacer coincidir el esquema y los objetos de diferentes fuentes? O ¿Cómo se pueden combinar entidades equivalentes del mundo real de múltiples fuentes de datos? Este problema se conoce como problema de identificación de entidades.
Los datos generalmente se recopilan de múltiples recursos en un almacén coherente y pueden tener diferentes dimensiones y tipos de datos. Hay diferentes representaciones de datos y diferentes escalas de datos.
Problemas en la integración de datos:
- Redundancia de datos : se producen datos redundantes mientras fusionamos datos de varias bases de datos. Si no se eliminan los datos redundantes, se obtendrán resultados incorrectos durante el análisis de datos. Los datos redundantes se producen debido a las siguientes razones.
- Identificación de objetos: el mismo atributo u objeto puede tener diferentes nombres en diferentes bases de datos
- Datos derivables: un atributo puede ser un atributo «derivado» en otra tabla, por ejemplo, ingresos anuales
- Atributos de datos duplicados : los duplicados suelen estar presentes en la información contenida en uno o más atributos.
- Atributos irrelevantes: algunos atributos en los datos no son importantes y no se consideran al realizar las tareas de minería de datos. No sirve de nada tener atributos tan irrelevantes en los datos. Por ejemplo, la identificación de los estudiantes a menudo es irrelevante para la tarea de predecir el GPA de los estudiantes.
- Problema de identificación de entidad:Las entidades equivalentes del mundo real de múltiples fuentes de datos coincidentes se refieren a este problema. El problema de identificación de la entidad ocurre durante la integración de datos. Durante la integración de datos de varios recursos, algunos recursos de datos coinciden entre sí y se volverán reductores si se integran. Por ejemplo: A.cliente-id =B.cliente-número. Aquí A, B son dos tablas de base de datos diferentes. id-cliente es el atributo de la tabla A, número-cliente es el atributo de la tabla B. Aquí id-cliente y número-cliente son atributos de tablas diferentes y no hay relación entre estos pero el atributo cust-id y el atributo cust-number toman los mismos valores. Este es el ejemplo del problema de identificación de entidades en la relación. Los metadatos se pueden utilizar para evitar errores en dicha integración de esquemas. Esto garantiza que las dependencias funcionales y las restricciones de referencia en el sistema de origen coincidan en el sistema de destino. El problema de identificación de entidades ayuda a detectar y resolver conflictos de valores de datos.
Técnicas de integración de datos:
- Integración manual
- Integración de software intermedio
- Integración basada en aplicaciones
- Integración de acceso uniforme
- Almacenamiento de datos