Microsoft Azure: Introducción a Azure Data Factory

Azure data factory, comúnmente conocida como ADF, es una herramienta ETL (Extract-Transform-load) para integrar datos de varias fuentes de varios formatos y tamaños, en otras palabras, es una solución de integración de datos sin servidor totalmente administrada para ingesta, preparando y transformando todos sus datos a escala.

A medida que los datos aumentan día a día en todo el mundo, muchas empresas y negocios están cambiando hacia el uso de tecnología basada en la nube para hacer que su negocio sea escalable. Debido al aumento de la adaptación a la nube, se necesitan herramientas ETL confiables en la nube para realizar la integración. La factoría de datos de Azure se destaca en comparación con otras herramientas de ETL debido a características como la facilidad de uso, la solución rentable y el servicio sin código inteligente y potente.

La arquitectura de Azure data Factory:

La siguiente figura describe la arquitectura del flujo de ingeniería de datos utilizando la factoría de datos de Azure

Fábrica de datos de Azure

Los diversos componentes de la factoría de datos de Azure son los siguientes:

  1. Actividades
  2. Tuberías
  3. Servicios vinculados
  4. conjuntos de datos
  5. Flujos de datos
  6. Tiempos de ejecución de integración

Todos estos componentes funcionan juntos en tiempo de ejecución para ayudar a extraer y transformar los datos de origen.

Antes de entender qué es un pipeline es necesario entender qué es una actividad. 

  • Actividad: las actividades en una canalización definen acciones para realizar en los datos. Por ejemplo, la actividad de copia de datos puede leerse desde una ubicación de Blob Storage y cargarla en otra ubicación de Blob Storage.
  • Pipeline: Pipeline es una agrupación lógica de actividades que juntas realizan una tarea. Por ejemplo, Pipeline puede tener un conjunto de actividades que toman datos de ADLS y realizan alguna transformación de datos usando U-SQL y cargan datos en SQL DB. 
  • Servicios vinculados: los servicios vinculados se utilizan para conectarse a otras fuentes con la factoría de datos de Azure. Los servicios vinculados actúan como strings de conexión para que los recursos se conecten. Por ejemplo, Conexión de un AWS S3 a Azure Data Factory
  • Conjuntos de datos: los conjuntos de datos son simplemente puntos o hacen referencia a los datos que queremos utilizar en nuestras actividades como entrada o salida.
  • Flujos de datos : la función de flujos de datos en la fábrica de datos de Azure permitirá a los usuarios desarrollar una lógica de transformación de datos gráficos que se puede ejecutar como actividades en canalizaciones ADF.
  • Tiempos de ejecución de integración : el tiempo de ejecución de integración (IR) es para computar la infraestructura utilizada por ADF para proporcionar capacidades tales como flujo de datos, movimiento de datos, envío de actividad y ejecución de paquetes SSIS en diferentes entornos de red.

Precios de Azure Data Factory:

  • Sin costo inicial
  • Sin cargos por terminación
  • Paga solo por lo que usas
  1. Canalizaciones de datos: ayuda a integrar datos de la nube y fuentes de datos híbridas, a escala. – El precio comienza desde ₹ 72,046 / 1,000 ejecuciones de actividad por mes
  2. Servicios de integración de SQL Server:  ayuda a mover fácilmente sus proyectos de servicios de integración de SQL Server existentes en las instalaciones a un entorno totalmente administrado en la nube. -Los precios de los Nodes de tiempo de ejecución de integración de SQL Server Integration Services comienzan desde ₹ 60.498 / hora

Publicación traducida automáticamente

Artículo escrito por yashwanthbaratam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *