Hadoop: es un marco que almacena Big Data en sistemas distribuidos y luego los procesa en paralelo. Los cuatro componentes principales de Hadoop son el sistema de archivos distribuidos de Hadoop (HDFS), Yarn, MapReduce y las bibliotecas. No solo implica grandes datos, sino también una combinación de información estructurada, semiestructurada y no estructurada. Amazon, IBM, Microsoft, Cloudera, ScienceSoft, Pivotal, Hortonworks son algunas de las empresas que utilizan la tecnología Hadoop.
SQL: el lenguaje de consulta estructurado es un lenguaje de dominio específico que se utiliza en la informática y para gestionar la gestión de datos en los sistemas de gestión de bases de datos relacionales. También procesa flujos de datos en sistemas de gestión de flujos de datos relacionales. En pocas palabras, SQL es un lenguaje de base de datos estándar que se utiliza para crear, almacenar y extraer datos de bases de datos relacionales como MySQL, Oracle, SQL Server, etc.
A continuación se muestra una tabla de diferencias entre Hadoop y SQL:
Rasgo | Hadoop | sql |
---|---|---|
Tecnología | Moderno | Tradicional |
Volumen | Generalmente en PetaBytes | Generalmente en GigaBytes |
Operaciones | Almacenamiento, procesamiento, recuperación y extracción de patrones de datos | Almacenamiento, procesamiento, recuperación y minería de patrones de datos |
Tolerancia a fallos | Hadoop es altamente tolerante a fallas | SQL tiene buena tolerancia a fallas |
Almacenamiento | Almacena datos en forma de pares clave-valor, tablas, mapas hash, etc. en sistemas distribuidos. | Almacena datos estructurados en formato tabular con esquema fijo en la nube |
Escalada | Lineal | no lineal |
Proveedores | Cloudera, Horton Work, AWS, etc. proporcionan sistemas Hadoop. | Los líderes de la industria más conocidos en sistemas SQL son Microsoft, SAP, Oracle, etc. |
Acceso a los datos | Acceso a datos orientado a lotes | Acceso a datos interactivo y orientado a lotes |
Costo | Es de código abierto y los sistemas se pueden escalar de manera rentable | Tiene licencia y cuesta una fortuna comprar un servidor SQL; además, si el sistema se queda sin almacenamiento, también surgen cargos adicionales. |
Tiempo | Las declaraciones se ejecutan muy rápidamente. | La sintaxis SQL es lenta cuando se ejecuta en millones de filas |
Mejoramiento | Almacena datos en HDFS y los procesa a través de Map Reduce con enormes técnicas de optimización. | No tiene ninguna técnica de optimización avanzada. |
Estructura | Esquema dinámico, capaz de almacenar y procesar datos de registro, datos en tiempo real, imágenes, videos, datos de sensores, etc. (tanto estructurados como no estructurados) | Esquema estático, capaz de almacenar datos (esquema fijo) solo en formato tabular (estructurado) |
Actualización de datos | Escribir datos una vez, leer datos varias veces | Leer y escribir datos varias veces |
Integridad | Bajo | Alto |
Interacción | Hadoop usa JDBC (Java Database Connectivity) para comunicarse con sistemas SQL para enviar y recibir datos | Los sistemas SQL pueden leer y escribir datos en los sistemas Hadoop |
Hardware | Utiliza hardware básico | Utiliza hardware propio |
Capacitación | Aprender Hadoop para principiantes y profesionales experimentados es moderadamente difícil | Aprender SQL es fácil incluso para los profesionales principiantes |
Publicación traducida automáticamente
Artículo escrito por riturajsaha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA