Google Cloud Platform: carga de datos en BigQuery

En este artículo, veremos cómo cargar y analizar sus propios datos en BigQuery. Como es mejor entender el concepto con ejemplos, estaremos respondiendo a la vieja pregunta “¿Qué es mejor, los gatos o los perros?”

Si desea analizar datos que aún no están disponibles como parte del programa de conjuntos de datos públicos o alojados públicamente por otro usuario de BigQuery, deberá cargar sus propios datos en BigQuery. La forma en que carga los datos depende de sus necesidades de análisis y su canalización de datos. Si sus datos cambian lentamente o deben cargarse en un análisis de una sola vez, puede que no le importe cargar los datos en BigQuery por lotes. Pero si necesita ingerir y analizar datos casi en tiempo real, en este caso, es posible que deba transmitir sus datos a BigQuery.

BigQuery tiene opciones para cargar datos que cubren ambos escenarios. Entonces, comencemos cargando datos en un lote. Entonces, ¿qué datos necesitas en BigQuery para coronar oficialmente al ganador de la batalla de gatos contra perros? Vamos a determinar el campeón analizando los juegos de torneos de baloncesto universitario para ver quién gana cuando las mascotas de perros y gatos se enfrentan cara a cara.

 Para ejecutar este análisis, necesitaremos dos cosas. En primer lugar, necesitaremos los datos de los resultados del torneo, que ya están disponibles en BigQuery como parte del conjunto de datos públicos de baloncesto de la NCAA . En segundo lugar, necesitaremos una lista que tenga equipos con mascotas de perros y gatos, que tenemos disponible como un archivo CSV local . Para unir estos dos conjuntos de datos para el análisis, necesitaremos cargar el archivo CSV de la mascota en BigQuery y crear una tabla. 

 Primero, crea un hogar para la tabla de mascotas en BigQuery. BigQuery organiza los datos en contenedores llamados conjuntos de datos. Estos conjuntos de datos funcionan como carpetas de nivel superior que administran las tablas subyacentes.

Ahora siga los pasos a continuación para cargar los datos:

Paso 1: para crear un nuevo conjunto de datos, seleccione el nombre del proyecto en el navegador de la izquierda y haga clic en el botón Crear conjunto de datos.

Paso 2: luego le daremos un nombre al conjunto de datos y luego decidiremos una ubicación. En este caso, debemos ubicar el conjunto de datos junto con el conjunto de datos públicos de la NCAA, que se encuentra en la región múltiple de EE. UU. Tendremos que hacer referencia a ambas tablas en una consulta realizando una unión. Y esto solo se puede hacer con mesas que residen en la misma ubicación geográfica. Siempre puede ver el conjunto de datos de la ubicación haciendo clic en la pestaña Detalles en la interfaz de usuario web. Haga clic en Crear conjunto de datos y el nuevo conjunto de datos aparecerá en el panel de navegación de la izquierda.

Paso 3: ahora es el momento de crear una nueva tabla dentro del conjunto de datos cargando el archivo CSV de la mascota. Resalte el conjunto de datos y haga clic en Crear tabla. 

Este cuadro de diálogo nos permite cargar directamente archivos desde nuestra máquina local de hasta 10 megabytes de tamaño y que contienen menos de 16 000 filas. Si tiene algo más grande, puede cargarlo en el almacenamiento en la nube y luego seleccionarlo desde allí. Dado que nuestro archivo CSV es bastante pequeño, podemos omitirlo y usar la función de exploración para seleccionar el archivo de nuestra máquina local.

Paso 4: asigne un nombre a la tabla y luego defina el esquema. El esquema es una lista de cada columna y su tipo de datos. Podemos definir el esquema manualmente haciendo clic en Agregar campo o marcando la casilla para que BigQuery lo detecte automáticamente.

Paso 5: haga clic en Crear tabla y se creará un trabajo de carga. Una vez que los datos hayan terminado de cargarse, puede navegar para ver los detalles de la tabla, revisar el esquema y obtener una vista previa de los datos directamente en la consola. Nuestra tabla de mascotas está lista para consultar. 

Paso 6: Pegaremos una consulta que use la tabla de mascotas para analizar los emparejamientos de juegos de torneos de gatos contra perros. En nuestra consulta, comenzamos con nuestra tabla de juegos de torneo y luego usamos una serie de uniones SQL con la tabla de mascotas para buscar una clasificación de animales para los equipos ganadores y perdedores. Luego sumamos el número de victorias de los gatos y el número de victorias de los perros en los juegos específicos de emparejamiento de gatos contra perros. Nuestra consulta será la siguiente:

#standardSQL

WITH matchups AS {
SELECT g.win_team_id

,g.lose_team_id
,(SELECT win_masc.tax_genus FROM 'analytics-testing-321.basketball.mascots' win_masc WHERE win_masc.id = g.win_team_id) AS tax_genus_winner 
,(SELECT lose_masc.tax_family FROM 'analytics-testing-321-basketball.mascots' lose_masc WHERE lose_masc.id = g.lose_team_id) AS tax_family_loser
,(SELECT win_masc.tax_family FROM 'analytics-testing-321.basketball.mascots win_masc WHERE win_masc.id =g.win_tean_id) AS tax_family_winner
, (SELECT lose_masc.tax_genus FROM 'analytics-testing-321-basketball.mascots lose_masc WHERE lose_masc.id = g.lose_team_id) AS tax_genus_loser
 FROM 'bigquery-public-data.ncaa_basketball.mbb_historical_tournament_games' g
 )
SELECT
SUM(IF(tax_family_winner = "Felidae" AND tax_genus_loser = "Canis", 1, 0)) AS num_cat_wins,
SUM(IF(tax_genus_winner = "Canis" AND tax_family_loser = "Felidae", 1, 0)) AS num_dog_wins
FROM matchups

Paso 7: Ahora ejecute nuestra consulta. Y ahí lo tenemos, con 43 de las victorias, las mascotas de perros ganan en el ámbito de los juegos de torneos de baloncesto universitario. También puede ver cómo se desempeñan los perros y los gatos en otras métricas o unir estos datos con otros conjuntos de datos para probar nuevas ideas. 

Publicación traducida automáticamente

Artículo escrito por ddeevviissaavviittaa y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *