El almacén de datos es un repositorio central que realiza la agregación para recopilar y agrupar datos de varias fuentes en una unidad central integrada. Los datos del almacén se pueden recuperar y analizar para generar informes o relaciones entre los conjuntos de datos de la base de datos, lo que mejora el crecimiento de muchas industrias. El almacén de datos se incluye en Business Intelligence. El almacén de datos está diseñado para proporcionar información en tiempo real. El almacenamiento de datos ha evolucionado desde simples cintas magnéticas hasta almacenes de datos integrados. Este artículo dará una visión general de la historia del almacenamiento.
Primeros mecanismos para almacenar datos:
Los primeros métodos para almacenar datos comenzaron con tarjetas perforadas, cintas de papel. Luego tuvo lugar el desarrollo de las cintas magnéticas. Aunque podemos escribir y reescribir datos en cintas magnéticas, no es un medio estable para almacenar datos. El almacenamiento en disco surgió donde puede almacenar y acceder a grandes cantidades de datos.
DBMS en almacenamiento en disco:
Posteriormente se integró DBMS (Database Management Systems) con el almacenamiento en disco para almacenar los datos directamente en el propio disco. La principal ventaja de integrar DBMS es que podemos localizar los datos rápidamente. Las características incluyen ubicación y eliminación de datos, resolviendo problemas cuando dos datos diferentes se asignan a la misma ubicación. La ubicación física se puede ampliar cuando los datos superan el límite de almacenamiento.
Aplicaciones en línea:
Llegó el advenimiento de las aplicaciones en línea después del uso de DBMS en el almacenamiento en disco. Las requests en línea son los productos del procesamiento en línea que tiene sus aplicaciones en la industria comercial. Por ejemplo, el procesamiento de ventas y venta minorista, los sistemas de reserva de boletos, el procesamiento de cajeros automáticos, etc. Las aplicaciones en línea juegan un papel importante en los años actuales debido a sus aplicaciones entrelazadas. Pero tiene un inconveniente que plantean los usuarios finales de la aplicación. Dado que hay una enorme cantidad de datos, a los usuarios finales les resulta difícil retener los datos deseados. Incluso si lo obtuvieron, no están seguros de si es correcto o exacto debido a la constante escalada de datos.
Tecnologías de Cuarta Generación (4GL) y Computadoras Personales:
El motivo de la tecnología 4GL es brindar a los usuarios finales la oportunidad directa de acceder a los datos, utilizando los lenguajes de programación y el desarrollo del sistema sin la interferencia del departamento de TI. Lo mismo sucede con las computadoras personales. Por lo tanto, las personas pueden traer sus propios sistemas personalizados a la empresa comercial y pueden acceder a los datos específicos accesibles para ellos. Esto redujo la necesidad de un departamento de tecnología centralizado para proporcionar los datos solicitados a los usuarios. Las hojas de cálculo son un buen ejemplo. Pero tiene sus inconvenientes. Los datos recuperados pueden ser incompletos, engañosos o incorrectos. Carece de delicadeza en el resultado final debido a la falta de documentación y la existencia de múltiples versiones de los mismos datos.
Entorno de telaraña:
El entorno de la telaraña terminó siendo un dilema para los usuarios finales y los profesionales de TI debido a su naturaleza y complejidad desfavorables. Este entorno se llama entorno de telaraña porque hay muchas líneas que se conectan y recuerdan las líneas de una telaraña. Aunque los datos se pueden recuperar, la eficiencia y la precisión son muy inferiores. Estos graves inconvenientes llamaron la necesidad de construir un almacén de datos centrado en la arquitectura de la información.
Evolución del entorno del almacén de datos:
A medida que la corporación pasó de la telaraña al entorno del almacén de datos, creó un cambio importante en las técnicas habituales en las que se almacenan los datos. Antes de la introducción del almacén de datos, se pensó que una base de datos debe ayudar a todos los propósitos de los datos. Después de la llegada del almacén de datos, es evidente que existen diferentes tipos de bases de datos que sirven para diferentes propósitos.
Un almacén de datos es un lugar donde la información se procesa en formas granulares e integradas de bot de datos e historial. Aunque no todos los almacenes están integrados, los almacenes de datos integrados tienen la ventaja de proporcionar la visión empresarial de una empresa. Los datos granulares tienen la ventaja de ver los mismos datos de diferentes maneras. Un conjunto de datos se puede buscar en forma de marketing o se puede buscar en forma financiera. Los mismos datos también se pueden usar para buscar en forma contable. Los almacenes de datos se utilizan para almacenar datos históricos de muchos años.
Desafíos del almacén de datos:
- Primero está la integración de datos, que es el proceso más difícil y lento, ya que es necesario tocar la raíz de los viejos legados de las empresas para obtener datos integrados útiles. Es un paso doloroso, pero vale la pena.
- Alto volumen de datos creado por técnicas de almacenamiento de datos que hace que el proceso sea tedioso. Entonces, surge la necesidad de deshacerse de los datos antiguos. Pero, para los análisis de datos, son muy valiosos y no se pueden ignorar.
- Los almacenes de datos no se pueden crear todos a la vez como otras aplicaciones operativas. Debe desarrollarse iterativamente, como un paso a la vez.
Razones para el desarrollo del Entorno Data Warehouse 2.0 (DW 2.0):
Las técnicas anteriores han evolucionado mucho y terminaron como DW 2.0. Necesitamos viajar de un lado a otro para comprender las fuerzas que iniciaron la arquitectura de DW 2.0. Algunos de ellos se dan a continuación.
- La demanda del usuario final de un nuevo sistema o arquitectura.
- Financieramente económico
- Técnicas de procesamiento en línea
- Alta capacidad de almacenamiento
- Necesidad de datos integrados
- La necesidad de incluir datos no estructurados con fines analíticos en la mezcla de datos.
Evolución del almacén de datos (desde la perspectiva empresarial):
- El resultado de las técnicas anteriores está en un formato sin refinar. Por ejemplo, es un proceso agitado leer todas esas entradas hexadecimales solo para encontrar una pequeña pieza de información de los códigos crípticos.
- Ahora, los usuarios finales se han vuelto más futuristas. Por lo tanto, exigen la necesidad de una salida más sofisticada y una fuente de salida instantánea.
- Para que se realicen las técnicas de procesamiento en línea, los datos deben estar integrados. Además, necesita datos históricos para el análisis.
- El almacén de datos de primera generación surgió debido a la sed de datos corporativos del usuario final.
Formas mutadas de almacén de datos:
Debido a las características atractivas del almacén de datos, los consultores de negocios han mutado el concepto de almacén de datos de acuerdo con sus necesidades corporativas. Algunas variaciones de los almacenes de datos son:
- El almacén de datos activo: el procesamiento y las actualizaciones en línea se llevan a cabo en este almacén. La característica principal de este almacén es que la transacción tiene una tasa de rendimiento muy alta. Los inconvenientes de este almacén mutado son que se cuestiona la rectitud de la transacción, un procesamiento estadístico considerable, se desperdician grandes capacidades, lo que a su vez aumenta el costo operativo.
- El almacén de datos federado: en este tipo de enfoque, debido a la alta complejidad en la integración de datos, se saltan este proceso. Técnicamente, un almacén no existe en este enfoque. El esquema detrás de eso es construir un almacén de datos mágicamente fusionando los viejos legados de la empresa para obtener y procesar datos simultáneamente. Este enfoque parece atractivo con menos trabajo, pero es solo una ilusión en lugar de una solución en sí misma. Tiene numerosos inconvenientes como mal rendimiento, historial limitado, ausencia de integración de datos, complejidad, granularidad heredada que proporciona un bajo rendimiento al usuario final cuando solicita datos de diferentes niveles de granularidad del depósito federal.
- El almacén de datos de esquema de estrella: la perspectiva utilizada en este almacenamiento de datos necesita la construcción de tablas de dimensiones y tablas de hechos. Proporciona muchos beneficios como almacén de datos, pero tiene sus limitaciones. Está diseñado solo para requisitos limitados y cuando los requisitos cambian, el almacén de datos se vuelve frágil. El nivel de granularidad sigue cambiando debido a la formación de múltiples esquemas que cuestionan la integridad de los datos. No se puede extender más allá de un cierto límite y está diseñado solo para un tipo de audiencia.
- Almacén de datos de Data Mart: los consultores del procesamiento de aplicaciones en línea primero construyen un data mart que brinda la oportunidad de conocer las ventas del producto sin ninguna complicación de construir un almacén de datos real. Las desventajas incluyen la no extensibilidad, la ocurrencia de muchos errores, la reconciliación de datos no es posible y la proliferación de extractos que dificulta la extracción de datos heredados. Otro hecho sobre este enfoque es que no hay forma de que un data mart se pueda convertir en un almacén de datos. Es como si el núcleo de cada uno fuera diferente y no se pudieran mutar para convertirse en un almacén.