Azure data factory, comúnmente conocida como ADF, es una herramienta ETL (Extract-Transform-load) para integrar datos de varias fuentes de varios formatos y tamaños, en otras palabras, es una solución de integración de datos sin servidor totalmente administrada para ingesta, preparando y transformando todos sus datos a escala.
A medida que los datos aumentan día a día en todo el mundo, muchas empresas y negocios están cambiando hacia el uso de tecnología basada en la nube para hacer que su negocio sea escalable. Debido al aumento de la adaptación a la nube, se necesitan herramientas ETL confiables en la nube para realizar la integración. La factoría de datos de Azure se destaca en comparación con otras herramientas de ETL debido a características como la facilidad de uso, la solución rentable y el servicio sin código inteligente y potente.
La arquitectura de Azure data Factory:
La siguiente figura describe la arquitectura del flujo de ingeniería de datos utilizando la factoría de datos de Azure
![](https://media.geeksforgeeks.org/wp-content/cdn-uploads/20210708161550/r11.png)
Fábrica de datos de Azure
Los diversos componentes de la factoría de datos de Azure son los siguientes:
- Actividades
- Tuberías
- Servicios vinculados
- conjuntos de datos
- Flujos de datos
- Tiempos de ejecución de integración
Todos estos componentes funcionan juntos en tiempo de ejecución para ayudar a extraer y transformar los datos de origen.
Antes de entender qué es un pipeline es necesario entender qué es una actividad.
- Actividad: las actividades en una canalización definen acciones para realizar en los datos. Por ejemplo, la actividad de copia de datos puede leerse desde una ubicación de Blob Storage y cargarla en otra ubicación de Blob Storage.
- Pipeline: Pipeline es una agrupación lógica de actividades que juntas realizan una tarea. Por ejemplo, Pipeline puede tener un conjunto de actividades que toman datos de ADLS y realizan alguna transformación de datos usando U-SQL y cargan datos en SQL DB.
- Servicios vinculados: los servicios vinculados se utilizan para conectarse a otras fuentes con la factoría de datos de Azure. Los servicios vinculados actúan como strings de conexión para que los recursos se conecten. Por ejemplo, Conexión de un AWS S3 a Azure Data Factory
- Conjuntos de datos: los conjuntos de datos son simplemente puntos o hacen referencia a los datos que queremos utilizar en nuestras actividades como entrada o salida.
- Flujos de datos : la función de flujos de datos en la fábrica de datos de Azure permitirá a los usuarios desarrollar una lógica de transformación de datos gráficos que se puede ejecutar como actividades en canalizaciones ADF.
- Tiempos de ejecución de integración : el tiempo de ejecución de integración (IR) es para computar la infraestructura utilizada por ADF para proporcionar capacidades tales como flujo de datos, movimiento de datos, envío de actividad y ejecución de paquetes SSIS en diferentes entornos de red.
Precios de Azure Data Factory:
- Sin costo inicial
- Sin cargos por terminación
- Paga solo por lo que usas
- Canalizaciones de datos: ayuda a integrar datos de la nube y fuentes de datos híbridas, a escala. – El precio comienza desde ₹ 72,046 / 1,000 ejecuciones de actividad por mes
- Servicios de integración de SQL Server: ayuda a mover fácilmente sus proyectos de servicios de integración de SQL Server existentes en las instalaciones a un entorno totalmente administrado en la nube. -Los precios de los Nodes de tiempo de ejecución de integración de SQL Server Integration Services comienzan desde ₹ 60.498 / hora
Publicación traducida automáticamente
Artículo escrito por yashwanthbaratam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA