Todas las organizaciones buscan desbloquear información empresarial a partir de sus datos. Pero puede ser difícil ingerir, almacenar y analizar de manera escalable esos datos a medida que crecen rápidamente. El almacén de datos empresariales de Google, llamado BigQuery, fue diseñado para hacer que el análisis de datos a gran escala sea accesible para todos.
En esta serie, veremos cómo BigQuery puede ayudarlo a obtener información valiosa de sus datos con facilidad. Si su empresa tiene pequeñas cantidades de datos, es posible que pueda almacenarlos en una hoja de cálculo. Pero a medida que su cantidad de datos crece a gigabytes, terabytes o incluso petabytes, comienza a necesitar un sistema más eficiente como un almacén de datos . Eso es porque todos esos datos no son muy útiles a menos que tenga una forma de analizarlos. Tradicionalmente, los conjuntos de datos más grandes significan tiempos más largos entre hacer preguntas y obtener respuestas.
BigQuery está diseñado para manejar grandes cantidades de datos, como datos de registro de miles de sistemas minoristas o datos de IoT de millones de sensores de vehículos en todo el mundo. Es un almacén de datos totalmente administrado y sin servidor que le permite concentrarse en el análisis en lugar de administrar la infraestructura. Por diseño, BigQuery lo ayuda a evitar el problema del silo de datoslo que sucede cuando tiene equipos individuales en su empresa que tienen sus propios data marts independientes. Esto puede crear una fricción significativa entre el análisis de datos entre equipos y causar desafíos con el control de versiones de datos. Gracias a la integración con la gestión de acceso e identidad nativa de Google Cloud, puede asignar permisos de lectura o escritura a usuarios, grupos o proyectos específicos, y mantener sus datos confidenciales seguros, todo mientras colabora entre equipos.
Trabajar con datos en BigQuery implica tres partes principales:
- Almacenamiento
- Ingestión
- consultando
Google se encarga de ejecutar todo lo demás. BigQuery es un servicio completamente administrado, lo que significa que no necesita configurar ni instalar nada. Y no necesita un administrador de base de datos. Simplemente puede iniciar sesión en su proyecto de Google Cloud desde un navegador y comenzar.
Primero, hablemos sobre el almacenamiento de BigQuery. Los datos se almacenan en una tabla estructurada, lo que significa que puede usar SQL estándar para consultar y analizar datos fácilmente.
Por ejemplo, supongamos que tiene algunos datos que representan las ventas de cada una de sus tiendas en el último año. Probablemente podría usar una base de datos más pequeña para eso. Pero, ¿y si tienes miles de tiendas? ¿Y si desea desglosar los ingresos por tipo de producto o por región por período de tiempo?
BigQuery es perfecto para big data porque administra todo ese almacenamiento y las operaciones de escalado automáticamente por usted. Hay muchas formas de hacerlo, ya que BigQuery está integrado con el resto de la plataforma de análisis de datos de Google. Puede cargar datos directamente desde Cloud Storage o transmitir datos desde Cloud Dataflow. También se puede usar para crear una canalización de ETL mediante la fusión de datos en la nube. También puede importar datos de una variedad de formatos de archivo.
Una vez que sus datos estén en BigQuery, estará listo para comenzar a responder esas preguntas. BigQuery admite el mismo lenguaje de consulta estructurado, o SQL , con el que puede estar familiarizado si trabajó con bases de datos relacionales compatibles con ANSI .
Puede omitir los pasos de transferencia y almacenamiento analizando los conjuntos de datos públicos de BigQuery. Estos son conjuntos de datos de terceros que se han hecho públicos para que cualquiera pueda consultarlos. Google maneja todo el almacenamiento para que pueda concentrarse en encontrar respuestas a sus preguntas.
Publicación traducida automáticamente
Artículo escrito por ddeevviissaavviittaa y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA