Un almacén de datos es una colección heterogénea de diferentes fuentes de datos organizadas bajo un esquema unificado. Los constructores deben tener una visión amplia del uso anticipado del almacén mientras construyen un almacén de datos . Durante la fase de diseño, no hay forma de anticipar todas las consultas o análisis posibles. Algunas características del almacén de datos son:
- Orientado al tema
- Integrado
- Variante de tiempo
- No volátil
Construcción de un almacén de datos:
algunos pasos necesarios para construir cualquier almacén de datos son los siguientes:
- Para extraer los datos (transnacionales) de diferentes fuentes de datos:
Para construir un almacén de datos, los datos se extraen de varias fuentes de datos y esos datos se almacenan en el área de almacenamiento central. Para la extracción de datos, Microsoft ha creado una excelente herramienta. Cuando compre Microsoft SQL Server, esta herramienta estará disponible sin costo alguno. - Para transformar los datos transnacionales:
Existen varios DBMS donde muchas de las empresas almacenan sus datos. Algunos de ellos son: MS Access, MS SQL Server, Oracle, Sybase, etc. Además, estas empresas guardan los datos en hojas de cálculo, archivos planos, sistemas de correo, etc. La relación de datos de todas estas fuentes se realiza mientras se construye un almacén de datos. - Para cargar los datos (transformados) en la base de datos dimensional:
Después de construir un modelo dimensional, los datos se cargan en la base de datos dimensional. Este proceso combina varias columnas o puede dividir un campo en varias columnas. Hay dos etapas en las que se puede realizar la transformación de los datos y son: mientras se cargan los datos en el modelo dimensional o mientras se extraen los datos de sus orígenes. - Para comprar una herramienta de informes de front-end:
hay herramientas analíticas de primer nivel disponibles en el mercado. Estas herramientas son proporcionadas por los principales proveedores. Microsoft lanza una herramienta rentable y un analizador de datos por sí solo.
Para el almacén hay una adquisición de los datos. Debe haber un uso de fuentes múltiples y heterogéneas para la extracción de datos, bases de datos de ejemplo. Existe la necesidad de la consistencia por la cual se debe realizar la formación de datos dentro del almacén. La reconciliación de nombres, significados y dominios de datos debe realizarse a partir de fuentes no relacionadas. También existe la necesidad de instalar los datos de varias fuentes en el modelo de datos del almacén.
La conversión de los datos puede realizarse desde bases de datos heredadas, relacionales o orientadas a objetos a un modelo multidimensional. Uno de los componentes que más demandan mano de obra en la construcción de un almacén de datos es la limpieza de datos, que es uno de los procesos complejos. Antes de cargar los datos en el almacén, debe haber una limpieza de los datos. Todo el trabajo de carga debe hacerse en almacén para un mejor desempeño. El único enfoque factible y mejor para ello es la actualización incremental. Almacenamiento de datos en el almacén de datos:
- Actualizar los datos
- Para proporcionar los datos variantes de tiempo
- Para almacenar los datos según el modelo de datos del almacén.
- Purgando los datos
- Para apoyar la actualización de los datos del almacén.
Algunos de los diseños importantes para el almacén de datos son:
- Diseño de componentes modulares
- Consideración de la arquitectura paralela
- Consideración de la arquitectura distribuida
- protección de uso
- Características de las fuentes disponibles
- Diseño del componente de metadatos
- El ajuste del modelo de datos
Las principales características determinantes para el diseño del almacén es la arquitectura del entorno informático distribuido de la organización. El almacén distribuido y el almacén federado son las dos arquitecturas distribuidas básicas. Hay algunos beneficios del almacén distribuido, algunos de ellos son:
El almacén federado es una confederación descentralizada de almacenes de datos autónomos. Cada uno de ellos tiene su propio repositorio de metadatos. Hoy en día, las grandes organizaciones comienzan a elegir data marts federados en lugar de construir un enorme almacén de datos.