Una colección de conjuntos de datos grandes y complejos que son difíciles de almacenar y procesar utilizando la base de datos tradicional y las herramientas de procesamiento de datos se considera big data. Los grandes datos se recopilan de fuentes tradicionales y digitales que, cuando se refinan adecuadamente, se pueden utilizar para investigación y análisis. Con el tiempo, las organizaciones están creciendo y con esto los datos generados por estas organizaciones también están aumentando exponencialmente. El desafío es tener una plataforma que pueda proporcionar una vista única y consistente de los datos completos. Otro desafío es organizar estos datos para que tengan sentido y puedan utilizarse como información útil. Todo lo que nos rodea genera big datacontinuamente. Los sitios web de redes sociales y las fuentes digitales son responsables de producir una cantidad tan grande de datos. Cómo se transmite esta enorme cantidad de datos: sensores, dispositivos móviles y sistemas son la respuesta.
¿De dónde viene este Big Data?
- Redes sociales: las empresas de big data como Facebook y Google obtienen los datos de cualquier actividad que realicemos. Otros ejemplos son YouTube, Twitter, LinkedIn, blogs, slideshare, Instagram, chatter, WordPress, Jive, etc.
- Web pública: esto incluye datos provenientes de Wikipedia, servicios de atención médica, el Banco Mundial, el gobierno, el clima, el tráfico, etc.
- Archivos: Esto incluye archivos de cualquier dato como registros médicos, correspondencia de clientes, formularios de seguros, documentos escaneados, etc.
- Documentos: la documentación de cualquier formato, incluidos HTML, CSV, PDF, XLS, Word, XML, etc., son las fuentes de big data.
- Medios: imágenes, video, audio, transmisión en vivo, podcast, etc.
- Almacenamiento de datos: las diversas bases de datos y sistemas de archivos que se utilizan para almacenar los datos sirven como fuente para los grandes datos.
- Datos de registro de la máquina: datos provenientes del servidor, registros de aplicaciones, registros de auditoría, registros de detalles de llamadas CDR, varias aplicaciones móviles, ubicación móvil, etc.
- Datos de sensores : datos de sensores conectados a dispositivos médicos, cámaras de carretera, satélites, dispositivos de vigilancia del tráfico, videojuegos, electrodomésticos, unidades de aire acondicionado, edificios de oficinas, etc.
Tres Vs de Big data
Hay 3V que definen la velocidad, la variedad y el volumen de Big Data
- Variedad: existen múltiples formatos para almacenar datos, por ejemplo, base de datos, MS-Access, MS-Excel, texto y muchos más. También puede ser en formato pdf, video o SMS. Entonces, el desafío es organizar estos datos para que sean significativos y es más fácil cuando los datos están en el mismo formato.
- Volumen: el volumen de datos provenientes de múltiples fuentes es enorme. Con este aumento en el volumen de datos, es importante que las organizaciones reevalúen su arquitectura y aplicaciones.
- Velocidad: La velocidad se refiere a la velocidad de procesamiento de los datos. En días anteriores, los datos de ayer se consideraban como datos recientes, pero ahora esto es válido solo en los periódicos. Descansa, todo se actualiza incluso en menos de una fracción de segundo. Canal de noticias, radios, tweets, publicaciones de Facebook y comentarios, todo se actualiza tan rápido que las actualizaciones de datos de unos minutos atrás se consideran inútiles y viejas.
Big data es una mezcla de datos no estructurados, estructurados y multiestructurados.
- Datos estructurados: los datos que tienen un formato definido y están organizados en un esquema predefinido se denominan datos estructurados. Los datos provenientes de bases de datos y repositorios tradicionales como Mainframes, SQL server, Oracle, DB2, Sybase, Access, Excel, txt y Teradata se consideran ejemplos de datos estructurados. El sistema de gestión de bases de datos relacionales trata solo con este tipo de datos.
- Datos no estructurados: los datos que no están organizados y que no son fáciles de interpretar utilizando bases de datos tradicionales o modelos de datos se denominan datos no estructurados. Datos provenientes de redes sociales como Chatter, análisis de texto, blogs, tweets, comentarios, clics, etiquetas, etc.
- Datos multiestructurados : los datos multiestructurados no están modelados, deben organizarse, aunque puede haber un esquema, pero se ignora. Puede derivarse de interacciones entre humanos y máquinas. Esto incluye datos de mercados emergentes, comercio electrónico y otros datos de terceros como clima, conversión de moneda, demografía, panel, etc.
Publicación traducida automáticamente
Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA