¿Qué es Big Data?

La ciencia de datos es el estudio del análisis de datos mediante tecnología avanzada ( aprendizaje automático , inteligencia artificial , big data). Procesa una gran cantidad de datos estructurados, semiestructurados y no estructurados para extraer el significado de la información, a partir del cual se puede diseñar un patrón que será útil para tomar … Continue reading «¿Qué es Big Data?»

Introducción a la ciencia de datos: habilidades requeridas

La ciencia de datos es un campo interdisciplinario de métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento o información de los datos en varias formas, ya sea estructuradas o no estructuradas, similar a la minería de datos. Big Data Analytics o Data Science es un término muy común en la industria de TI porque … Continue reading «Introducción a la ciencia de datos: habilidades requeridas»

Diferencia entre SQL y HiveQL

1. Lenguaje de consulta estructurado (SQL) : SQL es un lenguaje de dominio específico que se utiliza en la programación y está diseñado para administrar datos almacenados en un sistema de administración de bases de datos relacionales, también conocido como RDBMS. También es útil en el manejo de datos estructurados, es decir, datos que incorporan … Continue reading «Diferencia entre SQL y HiveQL»

Impacto del Big Data en la Bioinformática

Muchos científicos han trabajado años para reunir los datos biológicos y encontrar respuestas a las preguntas fundamentales. Durante este proceso, han recopilado una enorme cantidad de datos que son casi imposibles de manejar y analizar para un ser humano. Así que aquí viene la necesidad de la bioinformática. La bioinformática puede entenderse simplemente como un … Continue reading «Impacto del Big Data en la Bioinformática»

Conceptos básicos del clúster de Hadoop

Se puede explicar considerando los siguientes términos: ¿Cómo Hadoop Cluster hace que trabajar sea tan fácil? Usos del clúster de Hadoop: Tareas principales de Hadoop Cluster: Es adecuado para realizar actividades de procesamiento de datos. Es una gran herramienta para recopilar una gran cantidad de datos. También agrega un gran valor en el proceso de … Continue reading «Conceptos básicos del clúster de Hadoop»

Inicialización del trabajo en MapReduce

El administrador de recursos entrega la solicitud al programador de YARN cuando recibe una llamada a su método submitApplication() . El administrador de recursos inicia el proceso del maestro de aplicaciones allí cuando el programador asigna un contenedor bajo la administración del administrador de Nodes. MRAppMaster es la clase principal de la aplicación Java para … Continue reading «Inicialización del trabajo en MapReduce»

Diferencia entre Big Data y Apache Hadoop

Big Data : son datos, información o estadísticas relevantes enormes, grandes o voluminosos adquiridos por las grandes organizaciones y empresas. Se crearon y prepararon muchos software y almacenamiento de datos, ya que es difícil calcular manualmente los grandes datos. Se utiliza para descubrir patrones y tendencias y tomar decisiones relacionadas con el comportamiento humano y … Continue reading «Diferencia entre Big Data y Apache Hadoop»

¿Qué son los datos estructurados?

Los datos estructurados son los datos que se ajustan a un modelo de datos, tienen una estructura bien definida, siguen un orden consistente y una persona o un programa informático pueden acceder y utilizarlos fácilmente. Los datos estructurados generalmente se almacenan en esquemas bien definidos, como bases de datos. Generalmente es tabular con columnas y … Continue reading «¿Qué son los datos estructurados?»

¿Cómo MapReduce completa una tarea?

El maestro de aplicaciones cambia el estado del trabajo a «exitoso» cuando recibe una notificación de que se completó la última tarea de un trabajo. Luego, aprende que el trabajo se completó con éxito cuando el trabajo sondea el estado. Entonces, un mensaje regresa del waitForCompletion()método después de que imprime un mensaje, para informarle al … Continue reading «¿Cómo MapReduce completa una tarea?»

Ejecución del trabajo de MapReduce

Una vez que el programador del administrador de recursos asigna recursos a la tarea para un contenedor en un Node en particular, el maestro de la aplicación inicia el contenedor poniéndose en contacto con el administrador del Node. La tarea cuya clase principal es YarnChild es ejecutada por una aplicación Java. Localiza los recursos que … Continue reading «Ejecución del trabajo de MapReduce»