Google Cloud Platform: trabajar con datos externos en BigQuery

En BigQuery también es posible consultar datos almacenados externamente o fuera de BigQuery. En este artículo, nos sumergimos en estas fuentes de datos externas. Es posible dejar sus datos en cualquier lugar y usar BigQuery como motor de consulta. Estas fuentes se denominan fuentes de datos externas o federadas . Actualmente, esta funcionalidad es compatible con los datos que residen en Google Drive, Cloud Storage, Cloud SQL y Bigtable. 

Antes de analizar más de cerca cómo consultar estas fuentes, analicemos algunas diferencias notables que experimentará con las fuentes de datos externas:

  • Lo primero que hay que tener en cuenta es que el rendimiento de las consultas para las fuentes de datos externas puede no ser igual al rendimiento de las consultas de los datos almacenados en BigQuery. Entonces, si la velocidad de consulta es una prioridad en su caso, es posible que desee cargar los datos directamente en BigQuery.
  • En segundo lugar, al consultar una fuente externa, BigQuery no puede predecir la cantidad de datos que se procesarán. Entonces solo lo sabrá después de ejecutar su consulta.
  • Finalmente, los resultados no se almacenan en caché como lo harían al consultar datos almacenados en BigQuery. El almacenamiento en caché es una excelente manera de ahorrar costos y mejorar el rendimiento en consultas repetidas cuando los datos subyacentes no han cambiado.

En general, esta función es mejor para datos a corto plazo a los que se accede con menos frecuencia. Por ejemplo, podría usar fuentes de datos externas para admitir la carga y transformación de sus datos en un solo paso. En este flujo de trabajo, consulta la fuente externa, transforma los datos como parte de la consulta y luego escribe los resultados como una tabla permanente en el almacenamiento de BigQuery.

 Otro caso de uso es unir pequeñas cantidades de datos que cambian con frecuencia con datos almacenados en BigQuery. Al mantener los datos que cambian con frecuencia como una fuente de datos externa, no es necesario volver a cargarlos en BigQuery cada vez que se actualizan. Un ejemplo aquí es consultar datos que viven en una hoja de cálculo de Google. Incluso cuando la hoja se edita en tiempo real, puede ejecutar consultas sobre los datos y los resultados reflejarán la información actualizada y en vivo. 

Entonces, ahora veamos cómo configurar fuentes de datos externas en BigQuery. En este ejemplo, ejecutaremos una consulta sobre una colección de archivos JSON ubicados en un depósito de almacenamiento en la nube. Estos archivos tienen los datos de rendimiento de vuelo de todos los vuelos nacionales en los Estados Unidos desde 2014.

Paso 1: comenzando en la consola, cree un nuevo conjunto de datos. Resalte el nombre de su proyecto en el panel de navegación de la izquierda y haga clic en Crear conjunto de datos. Nombre el conjunto de datos flight_performance , elija EE. UU. para la ubicación y haga clic en Crear conjunto de datos.

Paso 2: ahora resalte su nuevo conjunto de datos y haga clic en Crear tabla.

En Fuente, elija Google Cloud Storage.

Nota: si sus datos se ubicaron en Google Drive, como en una Hoja de cálculo de Google o en Bigtable, elegiría esas fuentes alternativas en el menú desplegable.

Los datos de rendimiento del vuelo se encuentran en un depósito público al que cualquier usuario de GCP puede acceder con la dirección URI. Pegue el URI en el campo del depósito de GCS. Verá que hay un carácter comodín en el URI, que le indica a BigQuery que incluya todos los archivos JSON que se adhieren a la convención de nomenclatura específica. A continuación, en Destino, asegúrese de establecer el tipo de tabla en externo. Nombre la tabla 2014. Y puede detectar automáticamente el esquema en este caso. Finalmente, haga clic en Crear tabla. 

Dado que no hay ingesta de datos involucrada, verá que la tabla se llena inmediatamente debajo del conjunto de datos. Mire los detalles de la tabla donde puede ver la configuración externa que acaba de configurar y el tamaño de la tabla de 0 bytes porque su tabla externa no usa ningún almacenamiento de BigQuery.

Ahora puede ejecutar una consulta que haga referencia a la tabla externa. En nuestra consulta, estamos seleccionando la cuenta de todos los vuelos de la aerolínea. Como discutimos anteriormente, no puede ver la cantidad de datos procesados ​​hasta que se completa la consulta. En este ejemplo, creó un permanente para la fuente de datos externa. Sin embargo, también puede consultar una fuente externa utilizando una tabla temporal que es útil para consultas ad hoc únicas o para procesos ETL. 

Publicación traducida automáticamente

Artículo escrito por ddeevviissaavviittaa y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *