Apache Spark es un motor de análisis unificado ultrarrápido que se utiliza para la computación en clúster para grandes conjuntos de datos como BigData y Hadoop con el objetivo de ejecutar programas en paralelo en varios Nodes. Es una combinación de varias bibliotecas de pila, como SQL y Dataframes, GraphX, MLlib y Spark Streaming.
Spark funciona en 4 modos diferentes:
- Modo independiente: aquí todos los procesos se ejecutan dentro del mismo proceso JVM.
- Modo de clúster independiente: en este modo, utiliza el marco de programación de trabajos integrado en Spark.
- Apache Mesos: en este modo, los Nodes de trabajo se ejecutan en varias máquinas, pero el controlador se ejecuta solo en el Node maestro.
- Hadoop YARN: en este modo, los controladores se ejecutan dentro del Node maestro de la aplicación y son manejados por YARN en el clúster.
En este artículo, exploraremos la instalación de Apache Spark en modo independiente. Apache Spark está desarrollado en el lenguaje de programación Scala y se ejecuta en la JVM. La instalación de Java es una de las cosas obligatorias en Spark. Entonces, comencemos con la instalación de Java.
Instalación de Java:
Paso 1: Descarga Java JDK.
Paso 2: abra el kit de desarrollo Java SE descargado y siga las instrucciones de instalación.
Paso 3: abra la variable de entorno en la computadora portátil escribiéndola en la barra de búsqueda de Windows.
Establecer variables JAVA_HOME:
Para configurar la variable JAVA_HOME, siga los pasos a continuación:
- Haga clic en la variable de usuario Agregar JAVA_HOME a PATH con valor Valor: C:\Archivos de programa\Java\jdk1.8.0_261.
- Haga clic en la variable del sistema Agregar C:\Archivos de programa\Java\jdk1.8.0_261\bin a la variable PATH.
- Abra el símbolo del sistema y escriba «java –version», aparecerá a continuación y verificará la instalación de Java.
Instalación de Scala:
Para instalar Scala en su máquina local, siga los pasos a continuación:
Paso 1: Descarga Scala.
Paso 2: Haga clic en el archivo .exe y siga las instrucciones para personalizar la configuración según sus necesidades.
Paso 3: Acepte el acuerdo y haga clic en el botón siguiente.
Establecer variables ambientales:
- En la variable de usuario, agregue SCALA_HOME a PATH con el valor C:\Program Files (x86)\scala.
- En la variable del sistema, agregue C:\Archivos de programa (x86)\scala\bin a la variable PATH.
Verifique la instalación de Scala:
En el símbolo del sistema, use el siguiente comando para verificar la instalación de Scala:
scala
Instalación de chispa:
Descargue una versión prediseñada de Spark y extráigala en la unidad C, como C:\Spark. Luego haga clic en el archivo de instalación y siga las instrucciones para configurar Spark.
Establecer variables ambientales:
- En la variable de usuario, agregue SPARK_HOME a PATH con el valor C:\spark\spark-2.4.6-bin-hadoop2.7.
- En la variable del sistema, agregue% SPARK_HOME%\bin a la variable PATH.
Descargar Utilidades de Windows:
Si desea operar con datos de Hadoop, siga los pasos a continuación para descargar la utilidad para Hadoop:
Paso 1: Descargue el archivo winutils.exe.
Paso 2: copie el archivo en C:\spark\spark-1.6.1-bin-hadoop2.6\bin.
Paso 3: ahora ejecute «spark-shell» en cmd para verificar la instalación de chispa como se muestra a continuación:
Publicación traducida automáticamente
Artículo escrito por priyampatel9911 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA