Diferencia entre Apache Hadoop y Amazon Redshift

Hadoop es un marco de software de código abierto construido sobre el clúster de máquinas. Se utiliza para almacenamiento distribuido y procesamiento distribuido para conjuntos de datos muy grandes, es decir, Big Data. Se realiza utilizando el modelo de programación Map-Reduce. Implementada en Java, una herramienta fácil de desarrollar respalda la aplicación Big Data. Procesa fácilmente grandes volúmenes de datos en un grupo de servidores básicos. Puede extraer cualquier forma de datos, es decir, estructurados, no estructurados o semiestructurados. Es altamente escalable. Consta de 3 componentes:

  • HDFS: Sistema de almacenamiento confiable con la mitad de los datos del mundo almacenados en él.
  • Map Reduce : la capa consiste en un procesador distribuido.
  • Hilo : La capa consta de un administrador de recursos.

Amazon RedShift es un servicio de almacenamiento de datos a gran escala basado en la nube. Amazon Redshift tiene una licencia comercial y forma parte de los servicios web de Amazon. Maneja datos a gran escala y es conocido por su escalabilidad. Hace procesamiento paralelo de múltiples datos. Utiliza las propiedades ACID como principio de funcionamiento y es muy popular. Está implementado en lenguaje C y tiene alta disponibilidad. Característica de Amazon Redshift: servicio de almacenamiento de datos rápido, simple y rentable. 

A continuación se muestra una tabla de diferencias entre Apache Hadoop y Amazon Redshift:

APACHE HADOOP

DESPLAZAMIENTO AL ROJO AMAZONICO

Hadoop es 10 veces más costoso que Redshift. Cuesta alrededor de $200 por mes. Es más barato que Hadoop y cuesta $20 por mes ya que el precio depende de la región del servidor.
Los trabajos Map Reduce son más lentos en Hadoop. Redshift funciona mucho más rápido que el clúster de Hadoop. Por ejemplo: el clúster de 16 Nodes de Redshift funcionó mucho más rápido que un clúster de 44 Nodes de Hive/Elastic Map Reduce.
Hadoop tiene una capa de almacenamiento y almacena datos como archivos sin tener en cuenta ninguna estructura de datos subyacente. Redshift es una base de datos en columnas que está diseñada para trabajar con consultas complejas que abarcan millones de filas. Los datos se organizan en formato de tabla y admiten las estructuras basadas en el estándar PostgreSQL.
Utilice el comando HDFS set y get shell para copiar datos en el clúster de Hadoop. Los datos en Redshift se copian primero mediante el uso de Amazon S3 y luego mediante el comando de copia.
El escalado no es un factor limitante en Hadoop, ya que se puede escalar a cualquier cantidad de espacio de almacenamiento administrando e integrando el proceso de los Nodes correctamente. Redshift solo puede escalar hasta 2 PB.
Más lento en comparación con Redshift. Se necesitan 1491 segundos (24,85 minutos) para ejecutar 1,2 TB de datos Diez veces más rápido que Hadoop. Se tarda 155 segundos (2,5 minutos) en ejecutar 1,2 TB de datos.
Hadoop es un marco de código abierto de Apache Projects. Red Shift es un servicio con precio proporcionado por Amazon.
Hadoop es más flexible con el sistema de archivos local y cualquier base de datos Redshift solo puede cargar datos de Amazon S3 o DynamoDB.
Las actividades administrativas son complejas y difíciles de manejar en Hadoop. Redshift tiene copias de seguridad automatizadas en Amazon S3 y administración de almacenamiento de datos. 
Lo proporcionan los proveedores de Hortonworks y Cloudera, etc., Es desarrollado y proporcionado por Amazon Web Services.
Hay algunas limitaciones a la escalabilidad. No existen tales restricciones en la escalabilidad.

Publicación traducida automáticamente

Artículo escrito por miniyadav1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *