Cada día, los usuarios generan 2,5 quintillones de bytes de datos. Las predicciones de Statista sugieren que para fines de 2021, Internet generará 74 Zettabytes (74 billones de GB) de datos. Gestionar una subcontratación de datos tan vacía y perenne es cada vez más difícil. Entonces, para administrar datos tan grandes y complejos, se introdujo Big data, que está relacionado con la extracción de datos grandes y complejos en datos significativos que no se pueden extraer ni analizar con métodos tradicionales.
Todos los datos no se pueden almacenar de la misma manera. Los métodos para el almacenamiento de datos se pueden evaluar con precisión una vez que se ha identificado el tipo de datos. Un servicio en la nube, como Microsoft Azure, es un destino único para almacenar todo tipo de datos; blobs, colas, archivos, tablas, discos y datos de aplicaciones. Sin embargo, incluso dentro de la nube, existen servicios especiales para tratar subcategorías específicas de datos.
Por ejemplo , Azure Cloud Services como Azure SQL y Azure Cosmos DB ayudan a manejar y administrar tipos de datos escasamente variados.
Los datos de aplicaciones son los datos que las aplicaciones crean, leen, actualizan, eliminan o procesan. Estos datos podrían generarse a través de aplicaciones web, aplicaciones de Android, aplicaciones de iOS o cualquier otra aplicación. Debido a la variada diversidad en los tipos de datos que se utilizan, la determinación del enfoque de almacenamiento tiene algunos matices.
Tipos de grandes datos
Datos estructurados
Los datos estructurados se pueden definir crudamente como los datos que residen en un campo fijo dentro de un registro. Está vinculado por un cierto esquema, por lo que todos los datos tienen el mismo conjunto de propiedades. Los datos estructurados también se denominan datos relacionales. Se divide en varias tablas para mejorar la integridad de los datos mediante la creación de un solo registro para representar una entidad. Las relaciones se imponen mediante la aplicación de restricciones de tabla.
Se necesita un lenguaje de consulta estructurado (SQL) para reunir los datos. Los datos estructurados son fáciles de ingresar, consultar y analizar. Todos los datos siguen el mismo formato. Sin embargo, forzar una estructura consistente también significa que cualquier alteración de los datos es demasiado difícil, ya que cada registro debe actualizarse para adherirse a la nueva estructura. Los ejemplos de datos estructurados incluyen números, fechas, strings, etc. Los datos comerciales de un sitio web de comercio electrónico pueden considerarse datos estructurados.
Nombre | Clase | Sección | rollo no | Calificación |
---|---|---|---|---|
Geek1 | 11 | A | 1 | A |
Geek2 | 11 | A | 2 | B |
Geek3 | 11 | A | 3 | A |
Contras de los datos estructurados
- Los datos estructurados solo se pueden aprovechar en casos de funcionalidades predefinidas. Esto significa que los datos estructurados tienen una flexibilidad limitada y son adecuados solo para ciertos casos de uso específicos.
- Los datos estructurados se almacenan en un almacén de datos con restricciones rígidas y un esquema definido. Cualquier cambio en los requisitos significaría actualizar todos esos datos estructurados para satisfacer las nuevas necesidades. Este es un gran inconveniente en términos de gestión de recursos y tiempo.
Datos semiestructurados
Los datos semiestructurados no están sujetos a ningún esquema rígido para el almacenamiento y manejo de datos. Los datos no están en el formato relacional y no están bien organizados en filas y columnas como en una hoja de cálculo. Sin embargo, hay algunas características como pares clave-valor que ayudan a distinguir las diferentes entidades entre sí. Dado que los datos semiestructurados no necesitan un lenguaje de consulta estructurado, comúnmente se denominan datos NoSQL . Se utiliza un lenguaje de serialización de datos para intercambiar datos semiestructurados entre sistemas que incluso pueden tener una infraestructura subyacente variada.
Los datos se crean en texto sin formato para que se puedan usar diferentes herramientas de edición de texto para obtener información valiosa. Debido a un formato simple, los lectores de serialización de datos se pueden implementar en hardware con recursos de procesamiento y ancho de banda limitados.
Lenguajes de serialización de datos
Los desarrolladores de software usan lenguajes de serialización para escribir datos basados en memoria en archivos, tránsito, almacenamiento y análisis. El remitente y el receptor no necesitan saber sobre el otro sistema. Siempre que se utilice el mismo lenguaje de serialización, ambos sistemas pueden entender los datos cómodamente. Hay tres lenguajes de serialización predominantemente utilizados.
1. XML : XML significa lenguaje de marcado extensible . Es un lenguaje de marcado basado en texto diseñado para almacenar y transportar datos. Los analizadores XML se pueden encontrar en casi todas las plataformas de desarrollo populares. Es legible por humanos y máquinas. XML tiene estándares definidos para el esquema, la transformación y la visualización. Es autodescriptivo. A continuación se muestra un ejemplo de los detalles de un programador en XML.
XML
<ProgrammerDetails> <FirstName>Jane</FirstName> <LastName>Doe</LastName> <CodingPlatforms> <CodingPlatform Type="Fav">GeeksforGeeks</CodingPlatform> <CodingPlatform Type="2ndFav">Code4Eva!</CodingPlatform> <CodingPlatform Type="3rdFav">CodeisLife</CodingPlatform> </CodingPlatforms> </ProgrammerDetails> <!--The 2ndFav and 3rdFav Coding Platforms are imaginative because Geeksforgeeks is the best!-->
XML expresa los datos usando etiquetas ( texto entre paréntesis angulares ) para dar forma a los datos (por ej.: Nombre) y atributos (por ej.: Tipo) para presentar los datos. Sin embargo, al ser un lenguaje prolijo y voluminoso, otros formatos han ganado más popularidad.
2. JSON : JSON (Notación de objetos de JavaScript) es un formato de archivo ligero de estándar abierto para el intercambio de datos. JSON es fácil de usar y utiliza texto legible por humanos/máquinas para almacenar y transmitir objetos de datos.
Javascript
{ "firstName": "Jane", "lastName": "Doe", "codingPlatforms": [ { "type": "Fav", "value": "Geeksforgeeks" }, { "type": "2ndFav", "value": "Code4Eva!" }, { "type": "3rdFav", "value": "CodeisLife" } ] }
Este formato no es tan formal como XML. Es más como un modelo de par clave/valor que una representación de datos formal. Javascript tiene soporte incorporado para JSON. Aunque JSON es muy popular entre los desarrolladores web, al personal no técnico le resulta tedioso trabajar con JSON debido a su gran dependencia de JavaScript y caracteres estructurales (llaves, comas, etc.)
3. YAML : YAML es un lenguaje de serialización de datos fácil de usar. En sentido figurado, significa YAML Ain’t Markup Language. Es adoptado por manipuladores técnicos y no técnicos de todo el mundo debido a su simplicidad. La estructura de datos se define mediante la separación de líneas y la sangría y reduce la dependencia de los caracteres estructurales. YAML es extremadamente completo y su popularidad es el resultado de su legibilidad humano-máquina.
Un catálogo de productos organizado por etiquetas es un ejemplo de datos semiestructurados.
Datos no estructurados
Los datos no estructurados son el tipo de datos que no se adhieren a ningún esquema definido o conjunto de reglas. Su disposición es imprevista y desordenada. Las fotos, los videos, los documentos de texto y los archivos de registro generalmente se pueden considerar datos no estructurados. Si bien los metadatos que acompañan a una imagen o un video pueden estar semiestructurados, los datos reales que se tratan no están estructurados.
Resumen
Los datos de aplicaciones se pueden clasificar como datos estructurados, semiestructurados y no estructurados. Los datos estructurados están perfectamente organizados y obedecen un conjunto fijo de reglas. Los datos semiestructurados no obedecen a ningún esquema, pero tienen ciertas características discernibles para una organización. Los lenguajes de serialización de datos se utilizan para convertir objetos de datos en un flujo de bytes. Estos incluyen XML, JSON y YAML. Los datos no estructurados no tienen ninguna estructura en absoluto. Estos tres tipos de datos están presentes en una aplicación. Los tres juegan papeles igualmente importantes en el desarrollo de aplicaciones ingeniosas y atractivas.
Publicación traducida automáticamente
Artículo escrito por ssanya0904 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA