Diferencia entre datos pequeños y datos grandes

Small Data: Se puede definir como pequeños conjuntos de datos que son capaces de impactar decisiones en el presente. Cualquier cosa que esté actualmente en curso y cuyos datos se puedan acumular en un archivo de Excel. Small Data también es útil en la toma de decisiones, pero no tiene como objetivo tener un gran impacto en el negocio, sino que se puede describir como pequeños conjuntos de datos que son capaces de influir en las decisiones actuales. Casi todo lo que está actualmente en curso y cuyos datos se pueden adquirir en un archivo de Excel. Los datos pequeños también son útiles en la toma de decisiones, pero no están destinados a tener un gran impacto en el negocio, sino por un corto período de tiempo. 
En pocas palabras, los datos que son lo suficientemente simples como para ser utilizados para la comprensión humana en un volumen y una estructura tales que los hacen accesibles, concisos y viables se conocen como datos pequeños. 

Big Data: se puede representar como grandes fragmentos de datos estructurados y no estructurados. La cantidad de datos almacenados es inmensa. Por lo tanto, es importante que los analistas analicen a fondo todo el asunto para que sea relevante y útil para tomar decisiones comerciales adecuadas. 
En resumen, los conjuntos de datos que son realmente enormes y complejos que las técnicas convencionales de procesamiento de datos no pueden administrar se conocen como big data. 

Bigdata-vs-Smalldata

A continuación se muestra una tabla de diferencias entre Small Data y Big Data: 

Rasgo Datos pequeños Grandes datos
Tecnología Tradicional Moderno
Recopilación Generalmente, se obtiene de forma organizada que se inserta en la base de datos. La recopilación de Big Data se realiza mediante el uso de canalizaciones que tienen colas como AWS Kinesis o Google Pub/Sub para equilibrar datos de alta velocidad.
Volumen Datos en el rango de decenas o cientos de Gigabytes El tamaño de los datos es más de Terabytes
Áreas de análisis Marts de datos (analistas) Clusters (científicos de datos), data marts (analistas)
Calidad Contiene menos ruido ya que los datos se recopilan menos de manera controlada Por lo general, la calidad de los datos no está garantizada.
Procesando Requiere canalizaciones de procesamiento orientadas a lotes Tiene canalizaciones de procesamiento por lotes y secuencias
Base de datos sql No SQL
Velocidad Un flujo de datos regulado y constante, la agregación de datos es lenta Los datos llegan a velocidades extremadamente altas, grandes volúmenes de agregación de datos en poco tiempo
Estructura Datos estructurados en formato tabular con esquema fijo (Relacional) Numerosa variedad de conjuntos de datos, incluidos datos tabulares, texto, audio, imágenes, video, registros, JSON, etc. (no relacional)
Escalabilidad Suelen tener una escala vertical Se basan principalmente en arquitecturas de escalado horizontal, lo que brinda más versatilidad a un menor costo.
Lenguaje de consulta solo secuela Python, R, Java, Secuela
Hardware Un solo servidor es suficiente Requiere más de un servidor
Valor Business Intelligence, análisis y reporting Técnicas complejas de minería de datos para la búsqueda de patrones, recomendación, predicción, etc.
Mejoramiento Los datos se pueden optimizar manualmente (impulsado por humanos) Requiere técnicas de aprendizaje automático para la optimización de datos
Almacenamiento Almacenamiento dentro de empresas, servidores locales, etc. Por lo general, requiere sistemas de almacenamiento distribuido en la nube o en sistemas de archivos externos
Gente Analistas de datos, administradores de bases de datos e ingenieros de datos Científicos de datos, analistas de datos, administradores de bases de datos e ingenieros de datos
Seguridad Las prácticas de seguridad para Small Data incluyen privilegios de usuario, cifrado de datos, hashing, etc. Asegurar los sistemas Big Data es mucho más complicado. Las mejores prácticas de seguridad incluyen el cifrado de datos, el aislamiento de la red de clústeres, los protocolos de control de acceso sólidos, etc.
Nomenclatura Base de datos, Data Warehouse, Data Mart Lago de datos
Infraestructura Asignación de recursos predecible, principalmente hardware escalable verticalmente. Infraestructura más ágil con hardware escalable horizontalmente

Publicación traducida automáticamente

Artículo escrito por riturajsaha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *