Big Data se ha vuelto necesario a medida que las industrias crecen, el objetivo es reunir información y encontrar hechos ocultos detrás de los datos. Los datos definen cómo las industrias pueden mejorar su actividad y su negocio. Una gran cantidad de industrias giran en torno a los datos, hay una gran cantidad de datos que se recopilan y analizan a través de varios procesos con varias herramientas. Hadoop es una de las herramientas para manejar esta gran cantidad de datos, ya que puede extraer fácilmente la información de los datos. Hadoop tiene sus ventajas y desventajas cuando tratamos con Big Data.
ventajas
1. Costo
Hadoop es de código abierto y utiliza hardware básico rentable que proporciona un modelo rentable, a diferencia de las bases de datos relacionales tradicionales que requieren hardware costoso y procesadores de alta gama para manejar Big Data. El problema con las bases de datos relacionales tradicionales es que almacenar el volumen masivo de datos no es rentable, por lo que la empresa comenzó a eliminar los datos sin procesar. lo que puede no resultar en el escenario correcto de su negocio. Significa que Hadoop nos brinda 2 beneficios principales con el costo, uno es que es de código abierto y es de uso gratuito y el otro es que usa hardware básico que también es económico.
2. Escalabilidad
Hadoop es un modelo altamente escalable. Una gran cantidad de datos se divide en varias máquinas económicas en un clúster que se procesa en paralelo. el número de estas máquinas o Nodes se puede aumentar o disminuir según los requisitos de la empresa. En RDBMS tradicional (Sistema de gestión de base de datos relacional) los sistemas no se pueden escalar para abordar grandes cantidades de datos.
3. Flexibilidad
Hadoop está diseñado de tal manera que puede manejar cualquier tipo de conjunto de datos como estructurado (datos MySql), semiestructurado (XML, JSON), no estructurado (imágenes y videos) de manera muy eficiente. Esto significa que puede procesar fácilmente cualquier tipo de datos independientemente de su estructura, lo que lo hace muy flexible. lo cual es muy útil para las empresas, ya que pueden procesar grandes conjuntos de datos fácilmente, por lo que las empresas pueden usar Hadoop para analizar información valiosa de datos de fuentes como redes sociales, correo electrónico, etc. Con esta flexibilidad, Hadoop se puede usar con procesamiento de registros, almacenamiento de datos , detección de fraude, etc.
4. Velocidad
Hadoop utiliza un sistema de archivos distribuidos para administrar su almacenamiento, es decir, HDFS (Sistema de archivos distribuidos de Hadoop). En DFS (Sistema de archivos distribuidos), un archivo de gran tamaño se divide en bloques de archivos de tamaño pequeño y luego se distribuye entre los Nodes disponibles en un clúster de Hadoop, ya que esta gran cantidad de bloques de archivos se procesan en paralelo, lo que hace que Hadoop sea más rápido, por lo que proporciona un Rendimiento de alto nivel en comparación con los sistemas tradicionales de gestión de bases de datos. Cuando se trata de una gran cantidad de datos no estructurados, la velocidad es un factor importante, con Hadoop puede acceder fácilmente a TB de datos en solo unos minutos.
5. Tolerancia a fallas
Hadoop utiliza hardware básico (sistemas económicos) que pueden fallar en cualquier momento. En Hadoop, los datos se replican en varios DataNodes en un clúster de Hadoop, lo que garantiza la disponibilidad de los datos si, de alguna manera, alguno de sus sistemas falla. Puede leer todos los datos de una sola máquina si esta máquina enfrenta un problema técnico. Los datos también se pueden leer desde otros Nodes en un clúster de Hadoop porque los datos se copian o replican de manera predeterminada. Hadoop hace 3 copias de cada bloque de archivos y lo almacena en diferentes Nodes.
6. Alto rendimiento
Hadoop funciona en un sistema de archivos distribuido donde varios trabajos se asignan a varios Nodes de datos en un clúster, la barra de estos datos se procesa en paralelo en el clúster de Hadoop, lo que produce un alto rendimiento. El rendimiento no es más que la tarea o el trabajo realizado por unidad de tiempo.
7. Tráfico de red mínimo
En Hadoop, cada tarea se divide en varias subtareas pequeñas que luego se asignan a cada Node de datos disponible en el clúster de Hadoop. Cada Node de datos procesa una pequeña cantidad de datos, lo que genera poco tráfico en un clúster de Hadoop.
Contras
1. Problema con archivos pequeños
Hadoop puede funcionar de manera eficiente en una pequeña cantidad de archivos de gran tamaño. Hadoop almacena el archivo en forma de bloques de archivos que tienen un tamaño de 128 MB (por defecto) a 256 MB. Hadoop falla cuando necesita acceder a un archivo de tamaño pequeño en una gran cantidad. Esta cantidad de archivos pequeños sobrecarga el Namenode y dificulta el trabajo.
2. Vulnerabilidad
Hadoop es un marco que está escrito en Java, y Java es uno de los lenguajes de programación más utilizados, lo que lo hace más inseguro, ya que cualquiera de los ciberdelincuentes puede explotarlo fácilmente.
3. Bajo rendimiento en entornos de datos pequeños
Hadoop está diseñado principalmente para manejar grandes conjuntos de datos, por lo que puede ser utilizado de manera eficiente por las organizaciones que generan un volumen masivo de datos. Su eficiencia disminuye mientras se realiza en entornos de datos pequeños.
4. Falta de seguridad
Los datos lo son todo para una organización; de forma predeterminada, la característica de seguridad de Hadoop no está disponible. Por lo tanto, el controlador de datos debe tener cuidado con esta cara de seguridad y debe tomar las medidas adecuadas al respecto. Hadoop usa Kerberos para funciones de seguridad que no son fáciles de administrar. El almacenamiento y el cifrado de red faltan en Kerberos, lo que nos preocupa más.
5. Procesamiento alto
La operación de lectura/escritura en Hadoop es inmoderada ya que estamos tratando con datos de gran tamaño que están en TB o PB. En Hadoop, la lectura o escritura de datos se realiza desde el disco, lo que dificulta la realización de cálculos en la memoria y genera una sobrecarga de procesamiento o un procesamiento elevado.
6. Solo admite procesamiento por lotes
El proceso por lotes no es más que los procesos que se ejecutan en segundo plano y no tiene ningún tipo de interacción con el usuario. Los motores utilizados para estos procesos dentro del núcleo de Hadoop no son tan eficientes. No es posible producir la salida con baja latencia con él.
Publicación traducida automáticamente
Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA