El almacén de datos está estructurado por la integración de datos de diferentes fuentes. Varios factores separan el almacén de datos de la base de datos operativa. Dado que los dos sistemas brindan una funcionalidad muy diferente y requieren diferentes tipos de datos, es necesario mantener la base de datos de datos separada de la base de datos operativa. Un almacén de datos es un tesoro de conocimiento recopilado de múltiples fuentes, seleccionado bajo un esquema unificado y, por lo general, reside en un solo sitio. Un almacén de datos se crea a través del proceso de limpieza de datos, integración de datos, transformación de datos, carga de datos y actualización periódica de datos.
ETL significa Extraer, Transformar y Cargar. Es un proceso en el almacén de datos que es responsable de sacar los datos del sistema de origen y mantenerlos en el almacén de datos. Un ciclo de vida típico de ETL consta de los siguientes pasos de ejecución: inicio del ciclo, creación de datos de referencia, extracción de datos de diferentes fuentes, validación de datos, transformación de datos, puesta en escena de datos, generación de informes de auditoría, publicación de datos, archivado, limpieza .
- Extracción : implica conectar el sistema y seleccionar y recopilar los datos necesarios y necesarios para el procesamiento analítico.
- Transformación : serie de pasos realizados en los datos extraídos para convertirlos en un formato estándar
- Carga : Importa datos transformados en una gran base de datos o almacén de datos.
Beneficios del almacenamiento de datos y extracción, transformación y carga (ETL)
- Inteligencia empresarial mejorada
- Mayor rendimiento de consultas y del sistema
- Acceso oportuno a los datos
- Calidad y consistencia mejoradas
- Alto retorno de la inversión
¿Qué es cargar?
La carga es el último paso en el proceso ETL. En este paso, los datos extraídos y los datos transformados se cargan en la base de datos de destino. Para que la carga de datos sea eficiente, es necesario indexar la base de datos y deshabilitar las restricciones antes de cargar los datos. Los tres pasos del proceso ETL se pueden ejecutar en paralelo. La extracción de datos lleva tiempo y, por lo tanto, la segunda fase del proceso de transformación se ejecuta simultáneamente. Esto preparó los datos para la tercera etapa de carga. Tan pronto como algunos datos están listos, se cargan sin esperar a que se completen los pasos anteriores.
El proceso de carga es el movimiento físico de los datos desde los sistemas informáticos que almacenan la(s) base(s) de datos de origen hasta el que almacenará la base de datos del almacén de datos. Todo el proceso de transferencia de datos a un depósito de almacenamiento de datos se denomina de las siguientes maneras:
- Carga inicial : por primera vez cargando todas las tablas del almacén de datos.
- Carga Incremental : Periódicamente aplicando cambios continuos según el requerimiento. Después de cargar los datos en la base de datos del almacén de datos, verifique la integridad referencial entre las dimensiones y las tablas de hechos para asegurarse de que todos los registros pertenecen a los registros apropiados en las otras tablas. El DBA debe verificar que cada registro en la tabla de hechos esté relacionado con un registro en cada tabla de dimensiones que se usará en combinación con esa tabla de hechos.
- Actualización completa : eliminar el contenido de una tabla y volver a cargarla con datos nuevos.
Actualizar versus Actualizar
Después de la carga inicial, el almacén de datos debe mantenerse y actualizarse, y esto se puede hacer mediante los dos métodos siguientes:
- Actualización : aplicación de cambios incrementales en las fuentes de datos.
- Actualizar : recargas completas a intervalos específicos.
Carga de datos-
Los datos se mueven físicamente al almacén de datos. La carga tiene lugar dentro de una “ventana de carga. La tendencia se acerca a las actualizaciones en tiempo real para los almacenes de datos, ya que los almacenes se utilizan cada vez más para aplicaciones operativas.
Cargar las tablas de dimensiones
El procedimiento para mantener las tablas de dimensiones incluye dos funciones, la carga inicial de las tablas y, posteriormente, la aplicación de los cambios de forma continua. Las claves adaptadas del sistema se utilizan en un almacén de datos. Las lengüetas en el sistema fuente tienen sus propias claves. Por lo tanto, antes de una carga inicial o una carga en curso, las claves de producción deben cotejarse con las claves generadas por el sistema en el almacén de datos. Otro problema está relacionado con la aplicación de cambios de tipo 1 , tipo 2 y tipo 3 en el almacén de datos. figura _ muestra cómo manejarlo.
Cargando las tablas de Hechos: Historial y Cargas Incrementales
- La clave en la tabla de hechos es la concatenación de claves de las tablas de dimensiones.
- Entonces, por esta razón, los registros de amplitud se cargan primero.
- Se crea una clave concatenada a partir de las claves de las tablas de dimensiones correspondientes.
Métodos para la carga de datos
- basado en la nube
- Procesamiento por lotes
- Fuente abierta
Herramientas ETL
En el mercado actual, el equipo ETL es de gran valor y es muy importante reconocer el método clasificado de extracción, transformación y método de carga.
- Skyvía
- Voracidad del IRI
- Xtract.io
- Espolvorear
- Estudio DBConvert por SLOTIX sro
- Informática – PowerCenter
- IBM: servidor de información de la infoesfera
- Integrador de datos de Oracle
- Microsoft: servicios integrados de SQL Server (SSIS)
- Ab Initio
Desafíos de carga de datos
Numerosas soluciones ETL están basadas en la nube, lo que es responsable de su velocidad y escalabilidad. Pero las grandes empresas con infraestructura local tradicional y procesos de administración de datos a menudo usan scripts personalizados para recopilar y cargar sus datos en sistemas de almacenamiento a través de configuraciones personalizadas.
Ralentizar el análisis: cada vez que se agrega o cambia una fuente de datos, el sistema debe reconfigurarse, lo que requiere mucho tiempo y dificulta la capacidad de tomar decisiones rápidas.
Aumente la probabilidad de errores: los cambios y las reconfiguraciones abren la puerta a errores humanos, datos duplicados o faltantes y otros problemas.
Requiere conocimientos especializados: los equipos de TI internos a menudo carecen de las habilidades necesarias (y el ancho de banda) para codificar y monitorear las tareas de ETL.
Requiere equipos costosos: además de invertir en los recursos humanos adecuados, las organizaciones deben adquirir, alojar y mantener el hardware y otros equipos para impulsar el proceso en el sitio.
Publicación traducida automáticamente
Artículo escrito por tanushree7252 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA