¿Por qué razón no podríamos utilizar bases de datos con montones de círculos para hacer investigaciones a gran escala? ¿Por qué razón se requiere Hadoop?
La respuesta a estas consultas se origina en otro patrón en los impulsos circulares: buscar que el tiempo mejore más gradualmente que el tipo de cambio. Buscar es la forma de mover la cabeza del círculo a un punto específico del círculo para examinar o redactar información. Describe la inercia de una tarea de placa, aunque la tasa de cambio se compara con la velocidad de transferencia de una placa.
Si el ejemplo de acceso a la información se ve abrumado por las búsquedas, tomará más tiempo examinar o redactar grandes segmentos del conjunto de datos que desbordarlo, lo que funciona al tipo de cambio. Por otro lado, para actualizar un poco la cantidad de registros en una base de datos, un BTree tradicional (la estructura de información utilizada en las bases de datos sociales, que está limitada por la velocidad a la que puede realizar búsquedas) funciona de maravilla. Para actualizar la mayor parte de una base de datos, un B-Tree es menos productivo que MapReduce , que usa Sort/Merge para reconstruir la base de datos.
Desde múltiples puntos de vista, MapReduce puede verse como un complemento de un Sistema de gestión de bases de datos relacionales (RDBMS). MapReduce es una combinación sólida para problemas que necesitan desglosar todo el conjunto de datos en un estilo de grupo, especialmente para exámenes especialmente designados. RDBMS es útil para preguntas puntuales o actualizaciones, donde el conjunto de datos se ordenó para transmitir tiempos de recuperación y actualización de baja inactividad de una cantidad moderadamente modesta de información. MapReduce se adapta a las aplicaciones en las que la información se compone una vez y se lee normalmente, mientras que una base de datos social es útil para conjuntos de datos que se actualizan constantemente.
Mapa reducido | RDBMS | |
---|---|---|
Acceso | Lote | Interactivo y por lotes |
Actualizaciones | Escribe una vez, lee muchas veces | Leer y escribir muchas veces. |
Tamaño de datos | petabytes | Gigabytes |
Actas | Ninguna | ÁCIDO |
Estructura | Esquema en lectura | Esquema en escritura |
No obstante, los contrastes entre las bases de datos sociales y los marcos de Hadoop son oscurecedores. Las bases de datos sociales han comenzado a unirse a una parte de las ideas de Hadoop, y del otro lado, los marcos de Hadoop, por ejemplo, Hive se están volviendo cada vez más inteligentes (alejándose de MapReduce) e incluyendo características como listas e intercambios que los hacen parecer cada vez más. más como los RDBMS convencionales.
Otro contraste entre Hadoop y RDBMS es la medida de la estructura en los conjuntos de datos en los que trabajan. La información organizada está compuesta por elementos que tienen una posición caracterizada, por ejemplo, registros XML o tablas de bases de datos que cumplen con un esquema específico predefinido. Este es el dominio del RDBMS. La información semi-organizada, en cambio, es más laxa, y por más que haya un esquema, con frecuencia se pasa por alto, por lo que podría utilizarse como un manual de estructura de la información: por ejemplo, una hoja de cálculo, donde se La estructura es simplemente la array de las células, a pesar de que las propias células pueden contener cualquier tipo de información.
La información no estructurada no tiene una estructura interna específica: por ejemplo, contenido sin formato o, de nuevo, información de imágenes. Hadoop funciona admirablemente con información no estructurada o semi-organizada, ya que está destinada a traducir la información en el momento de la preparación (supuesto patrón de lectura). Esto le da adaptabilidad y mantiene una distancia estratégica del exorbitante período de apilamiento de información de RDBMS, ya que en Hadoop es solo un registro duplicado.
Publicación traducida automáticamente
Artículo escrito por mayank5326 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA