Enfoques en el proceso ETL

Requisito previo: proceso ETL (extracción, transformación y carga)

ETL significa Extracción, Transformación y Carga.

Estas son tres funciones de base de datos que se incorporan en una herramienta para extraer datos de una base de datos y colocar datos en otra base de datos.

Big Data abarca una amplia gama de datos enormes que pueden ser estructurados o no estructurados. A RDBMS le resulta difícil manejar grandes volúmenes de datos. Además, RDBMS está diseñado para una retención constante de datos en lugar de un crecimiento rápido. Aquí es donde entran los almacenes de datos.

El almacén de datos admite todo tipo de datos y también puede manejar el rápido crecimiento de los datos. Por lo tanto, para el análisis de datos, los datos deben trasladarse de las bases de datos a los almacenes de datos. El funcionamiento del proceso ETL se puede explicar bien con la ayuda del siguiente diagrama.

Proceso ETL

Las aplicaciones del proceso ETL son:

  • Para mover datos dentro y fuera de los almacenes de datos. Las bases de datos no son adecuadas para el análisis de big data, por lo tanto, los datos deben moverse de las bases de datos a los almacenes de datos, lo que se realiza a través del proceso ETL.
  • Las estrategias de datos son más complejas que nunca. ETL facilita la transformación de grandes cantidades de datos en inteligencia empresarial procesable.

Hay dos enfoques en ETL:

  1. Enfoque de arriba hacia abajo:
    el flujo de datos en el entorno OLAP de arriba hacia abajo comienza con la extracción de datos de las fuentes de datos operativas. Estos datos se cargan en el área de preparación y se validan y consolidan para garantizar un nivel de corrección y luego se trasladan al Almacén de datos operativos (ODS).

    La etapa ODS a veces se omite si se trata de otra copia de las bases de datos operativas. Los datos se cargan en el almacén de datos en paralelo para evitar extraerlos del ODS. Los datos se extraen de forma rutinaria del ODS y se alojan temporalmente en el área de preparación para agregarlos, resumirlos y luego extraerlos y cargarlos en el almacén de datos.

    La necesidad de tener un ODS está determinada por los requisitos comerciales. Si se necesitan datos detallados en el almacén de datos, se debe crear ODS. Una vez que se completen los procesos de agregación y resumen del almacén de datos, el data mart extraerá los datos del almacén de datos al área de preparación y realizará un nuevo conjunto de transformaciones en ellos. Esto ayudará a organizar los datos en estructuras particulares según lo requieran los data marts.

    Posteriormente, los data marts se pueden cargar con los datos y el entorno OLAP queda disponible para los usuarios. Los datos en un almacén de datos son datos históricos. Inmon propuso un enfoque de modelo de arriba hacia abajo para crear un almacén de datos empresarial centralizado utilizando técnicas tradicionales de modelado de bases de datos (modelo ER), donde los datos se almacenan en 3NF. El almacén de datos ahora actúa como una fuente de datos para los nuevos data marts.

  2. Enfoque de arriba hacia abajo

  3. Metodología Kimball (Enfoque de abajo hacia arriba):
    El enfoque de abajo hacia arriba invierte las posiciones del Datawarehouse y los Data marts. Los data marts se cargan directamente con los datos a través del área de ensayo. La existencia de ODS depende de los requisitos comerciales. El flujo de datos en el enfoque de abajo hacia arriba comienza con la extracción de datos de las bases de datos operativas en el área de preparación donde se procesan y consolidan y luego se cargan en el ODS.

    Los datos en el ODS se agregan o se reemplazan por los datos nuevos que se están cargando. Una vez que se actualiza el ODS, los datos actuales se extraen una vez más en el área de preparación y se procesan. Los datos del data mart se extraen al área de ensayo agregados, resumidos, etc., y se cargan en el almacén de datos y se ponen a disposición del usuario final para su análisis.

  4. Enfoque de abajo hacia arriba

Herramientas ETL:
algunas de las herramientas ETL más utilizadas son MarkLogic, Oracle, Sybase, Hevo y Xplenty.

Ventajas de las herramientas ETL:

  • Fácil de usar.
  • Cargue datos de diferentes objetivos al mismo tiempo.
  • Realiza la transformación de datos según la necesidad.
  • Mejor para reglas y transformaciones complejas.
  • Funcionalidad incorporada de manejo de errores.
  • Basado en GUI y ofrece flujo visual.
  • Ahorre costos y genere mayores ingresos.

Desventajas de las herramientas ETL:

  • No apto para acceso a datos casi en tiempo real.
  • Inclinado más hacia el procesamiento de datos por lotes
  • Es difícil mantenerse al día con los requisitos cambiantes.

Publicación traducida automáticamente

Artículo escrito por rohanchopra96 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *