Small Data: Se puede definir como pequeños conjuntos de datos que son capaces de impactar decisiones en el presente. Cualquier cosa que esté actualmente en curso y cuyos datos se puedan acumular en un archivo de Excel. Small Data también es útil en la toma de decisiones, pero no tiene como objetivo tener un gran impacto en el negocio, sino que se puede describir como pequeños conjuntos de datos que son capaces de influir en las decisiones actuales. Casi todo lo que está actualmente en curso y cuyos datos se pueden adquirir en un archivo de Excel. Los datos pequeños también son útiles en la toma de decisiones, pero no están destinados a tener un gran impacto en el negocio, sino por un corto período de tiempo.
En pocas palabras, los datos que son lo suficientemente simples como para ser utilizados para la comprensión humana en un volumen y una estructura tales que los hacen accesibles, concisos y viables se conocen como datos pequeños.
Big Data: se puede representar como grandes fragmentos de datos estructurados y no estructurados. La cantidad de datos almacenados es inmensa. Por lo tanto, es importante que los analistas analicen a fondo todo el asunto para que sea relevante y útil para tomar decisiones comerciales adecuadas.
En resumen, los conjuntos de datos que son realmente enormes y complejos que las técnicas convencionales de procesamiento de datos no pueden administrar se conocen como big data.
A continuación se muestra una tabla de diferencias entre Small Data y Big Data:
Rasgo | Datos pequeños | Grandes datos |
---|---|---|
Tecnología | Tradicional | Moderno |
Recopilación | Generalmente, se obtiene de forma organizada que se inserta en la base de datos. | La recopilación de Big Data se realiza mediante el uso de canalizaciones que tienen colas como AWS Kinesis o Google Pub/Sub para equilibrar datos de alta velocidad. |
Volumen | Datos en el rango de decenas o cientos de Gigabytes | El tamaño de los datos es más de Terabytes |
Áreas de análisis | Marts de datos (analistas) | Clusters (científicos de datos), data marts (analistas) |
Calidad | Contiene menos ruido ya que los datos se recopilan menos de manera controlada | Por lo general, la calidad de los datos no está garantizada. |
Procesando | Requiere canalizaciones de procesamiento orientadas a lotes | Tiene canalizaciones de procesamiento por lotes y secuencias |
Base de datos | sql | No SQL |
Velocidad | Un flujo de datos regulado y constante, la agregación de datos es lenta | Los datos llegan a velocidades extremadamente altas, grandes volúmenes de agregación de datos en poco tiempo |
Estructura | Datos estructurados en formato tabular con esquema fijo (Relacional) | Numerosa variedad de conjuntos de datos, incluidos datos tabulares, texto, audio, imágenes, video, registros, JSON, etc. (no relacional) |
Escalabilidad | Suelen tener una escala vertical | Se basan principalmente en arquitecturas de escalado horizontal, lo que brinda más versatilidad a un menor costo. |
Lenguaje de consulta | solo secuela | Python, R, Java, Secuela |
Hardware | Un solo servidor es suficiente | Requiere más de un servidor |
Valor | Business Intelligence, análisis y reporting | Técnicas complejas de minería de datos para la búsqueda de patrones, recomendación, predicción, etc. |
Mejoramiento | Los datos se pueden optimizar manualmente (impulsado por humanos) | Requiere técnicas de aprendizaje automático para la optimización de datos |
Almacenamiento | Almacenamiento dentro de empresas, servidores locales, etc. | Por lo general, requiere sistemas de almacenamiento distribuido en la nube o en sistemas de archivos externos |
Gente | Analistas de datos, administradores de bases de datos e ingenieros de datos | Científicos de datos, analistas de datos, administradores de bases de datos e ingenieros de datos |
Seguridad | Las prácticas de seguridad para Small Data incluyen privilegios de usuario, cifrado de datos, hashing, etc. | Asegurar los sistemas Big Data es mucho más complicado. Las mejores prácticas de seguridad incluyen el cifrado de datos, el aislamiento de la red de clústeres, los protocolos de control de acceso sólidos, etc. |
Nomenclatura | Base de datos, Data Warehouse, Data Mart | Lago de datos |
Infraestructura | Asignación de recursos predecible, principalmente hardware escalable verticalmente. | Infraestructura más ágil con hardware escalable horizontalmente |
Publicación traducida automáticamente
Artículo escrito por riturajsaha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA