Citando las palabras de Pat Gelsinger, CEO de VMware “ Los datos son la nueva ciencia, Big Data tiene las respuestas ”. A juzgar por esta declaración, los datos son la clave del mundo actual. En el pasado, teníamos que confiar en profesionales experimentados con respecto a decisiones críticas relacionadas con negocios, marketing, compras, etc. Esta experiencia se basó particularmente en la exposición a muchos problemas a los que se habían enfrentado y si habían podido abordarlos con éxito. Por lo tanto, habían estado entrenando inconscientemente su mente para decidir la viabilidad de ciertas decisiones. Los tiempos han cambiado ahora y ahora estamos mirando hacia el enfoque de decisiones basadas en datos para proporcionar decisiones más precisas para minimizar el error humano y maximizar la eficiencia de estas industrias.
Para trabajar con este concepto necesitamos saber cuántos datos necesitamos manejar. Se estima que casi 3 mil millones de Terabytes de datos son generados por un solo vuelo Cross Country. ¡¡¡Sorprendido!!!. Este fue solo el volumen de datos generado por la industria de las aerolíneas. Tenemos muchas industrias trabajando en líneas similares y generando cantidades atroces de datos.
Big data es un término en evolución que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información. Por lo tanto, para abordar tamaños tan voluminosos y desconcertantes de datos generados, utilizamos técnicas específicas para extraer información útil. Estas técnicas deben ser muy sólidas , accesibles , escalables y sencillas . Uno de esos marcos se llama HADOOP. Este marco se basa en un sistema de archivos llamado HDFS(Sistema de archivos distribuidos de Hadoop) que utiliza la esencia de la arquitectura del sistema de archivos distribuidos y la programación paralela para manejar enormes cantidades de datos almacenados en servidores básicos. Estas técnicas ayudan a extraer información crítica sin problemas.
HDFS almacena archivos en piezas llamadas bloques. Estos bloques están ubicados en ubicaciones aleatorias en los servidores para minimizar el tiempo de búsqueda de estos archivos. En segundo lugar, también se almacenan copias duplicadas de estos bloques que sirven como respaldo para evitar la pérdida de información, lo que la hace robusta. Para ubicar estos bloques, los metadatos de estos bloques se almacenan en el Node de nombre principal, mientras que los datos reales en forma de bloques se almacenan en varios Nodes de datos repartidos por el servidor. Este Node de nombre principal sirve como maestro para los Nodes de datos y, por lo tanto, también se denomina arquitectura maestro-esclavo.
“ Tortura los datos y te confesará cualquier cosa ”. Esta cita absorbe perfectamente todos los puntos mencionados en los párrafos anteriores. No es de extrañar que se llame Hotcake para profesionales de TI y seguirá siendo el mismo durante las próximas décadas.
Este artículo es una contribución de Abhishek Mukherjee. Si le gusta GeeksforGeeks y le gustaría contribuir, también puede escribir un artículo y enviarlo por correo electrónico a contribuya@geeksforgeeks.org. Vea su artículo que aparece en la página principal de GeeksforGeeks y ayude a otros Geeks.
Escriba comentarios si encuentra algo incorrecto o si desea compartir más información sobre el tema tratado anteriormente.
Publicación traducida automáticamente
Artículo escrito por GeeksforGeeks-1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA