Análisis de datos con Unix – Parte 1

Para comprender cómo trabajar con Unix, se utilizan los datos: Weather Dataset.
Los sensores meteorológicos recopilan datos constantemente en numerosas áreas del mundo y recopilan una gran cantidad de datos de registro, lo cual es una posibilidad decente para investigar con MapReduce porque se requiere procesar cada uno de los datos, y los datos se registran. -orientado y semi-organizado.

La información utilizada es del Centro Nacional de Datos Climáticos, o NCDC. Los datos se almacenan utilizando un grupo ASCII ordenado por líneas, en el que cada línea es un registro. La organización sustenta una rica disposición de componentes meteorológicos, muchos de los cuales son discrecionales o con longitudes de información variables. Para simplificar, céntrese en los componentes fundamentales, por ejemplo, la temperatura, que está constantemente presente y tiene un ancho fijo.
Estructura del registro NCDC

0057
332130       # USAF weather station identifier
99999        # WBAN weather station identifier
19500101     # observation date
0300         # observation time
4 
+51317       # latitude ( degrees x 1000)
+028783      # longitude (degrees x 1000)
FM-12
+0171        # elevation (meters)
99999
V020
320          # wind direction (degrees)
1            # quality code
N 0072
1 00450      # sky ceiling height (meters)
1            # quality code
C
N 
010000       # visibility distance (meters)
1            # quality code
N
9 
-0128       # air temperature (degrees Celsius x 10)
1           # quality code
-0139       # dew point temperature (degrees Celsius x 10)
1           # quality code
10268       # atmospheric pressure (hectopascals x 10)
1           # quality code

Nota: los campos se empaquetan en una línea sin delimitadores en el archivo real en el que trabajaremos. Los archivos de datos se ordenan por fecha y estación climática. Hay un índice para cada año desde 1901 hasta 2001, cada uno de los cuales contiene un registro comprimido con gzip para cada estación climática con sus lecturas para ese año.

Primeras entradas para 1995:

% ls raw/1990 | head
010010-99999-1995.gz
010014-99999-1995.gz
010015-99999-1995.gz
010016-99999-1995.gz
010017-99999-1995.gz
010030-99999-1995.gz
010040-99999-1995.gz
010080-99999-1995.gz
010100-99999-1995.gz
010150-99999-1995.gz

Hay innumerables estaciones climáticas, por lo que todo el conjunto de datos se compone de una gran cantidad de documentos generalmente pequeños. Por lo general, es más fácil y cada vez más eficiente procesar una cantidad más pequeña de registros generalmente grandes, por lo que la información se preprocesó con el objetivo de que las lecturas de cada año se vincularan en un solo registro.

Publicación traducida automáticamente

Artículo escrito por mayank5326 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta