Instale Apache Spark en modo independiente en Windows

Apache Spark es un motor de análisis unificado ultrarrápido que se utiliza para la computación en clúster para grandes conjuntos de datos como BigData y Hadoop con el objetivo de ejecutar programas en paralelo en varios Nodes. Es una combinación de varias bibliotecas de pila, como SQL y Dataframes, GraphX, MLlib y Spark Streaming.

Spark funciona en 4 modos diferentes:

  1. Modo independiente: aquí todos los procesos se ejecutan dentro del mismo proceso JVM.
  2. Modo de clúster independiente: en este modo, utiliza el marco de programación de trabajos integrado en Spark.
  3. Apache Mesos: en este modo, los Nodes de trabajo se ejecutan en varias máquinas, pero el controlador se ejecuta solo en el Node maestro.
  4. Hadoop YARN: en este modo, los controladores se ejecutan dentro del Node maestro de la aplicación y son manejados por YARN en el clúster.

En este artículo, exploraremos la instalación de Apache Spark en modo independiente. Apache Spark está desarrollado en el lenguaje de programación Scala y se ejecuta en la JVM. La instalación de Java es una de las cosas obligatorias en Spark. Entonces, comencemos con la instalación de Java. 

Instalación de Java:

Paso 1: Descarga Java JDK.

Paso 2: abra el kit de desarrollo Java SE descargado y siga las instrucciones de instalación.

Paso 3: abra la variable de entorno en la computadora portátil escribiéndola en la barra de búsqueda de Windows.

Establecer variables JAVA_HOME:

Para configurar la variable JAVA_HOME, siga los pasos a continuación:

  • Haga clic en la variable de usuario Agregar JAVA_HOME a PATH con valor Valor: C:\Archivos de programa\Java\jdk1.8.0_261.
  • Haga clic en la variable del sistema Agregar C:\Archivos de programa\Java\jdk1.8.0_261\bin a la variable PATH.
  • Abra el símbolo del sistema y escriba «java –version», aparecerá a continuación y verificará la instalación de Java.

Instalación de Scala: 

Para instalar Scala en su máquina local, siga los pasos a continuación:

Paso 1: Descarga Scala. 

Paso 2: Haga clic en el archivo .exe y siga las instrucciones para personalizar la configuración según sus necesidades.

Paso 3: Acepte el acuerdo y haga clic en el botón siguiente. 

Establecer variables ambientales:

  • En la variable de usuario, agregue SCALA_HOME a PATH con el valor C:\Program Files (x86)\scala.
  • En la variable del sistema, agregue C:\Archivos de programa (x86)\scala\bin a la variable PATH.

Verifique la instalación de Scala:

En el símbolo del sistema, use el siguiente comando para verificar la instalación de Scala:

scala

Instalación de chispa:

Descargue una versión prediseñada de Spark y extráigala en la unidad C, como C:\Spark. Luego haga clic en el archivo de instalación y siga las instrucciones para configurar Spark.


Establecer variables ambientales:

  • En la variable de usuario, agregue SPARK_HOME a PATH con el valor C:\spark\spark-2.4.6-bin-hadoop2.7.
  • En la variable del sistema, agregue% SPARK_HOME%\bin a la variable PATH.

Descargar Utilidades de Windows:

Si desea operar con datos de Hadoop, siga los pasos a continuación para descargar la utilidad para Hadoop:

Paso 1: Descargue el archivo winutils.exe.

Paso 2: copie el archivo en C:\spark\spark-1.6.1-bin-hadoop2.6\bin.

Paso 3: ahora ejecute «spark-shell» en cmd para verificar la instalación de chispa como se muestra a continuación:

Publicación traducida automáticamente

Artículo escrito por priyampatel9911 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *