Come installare e configurare Apache Spark su Ubuntu/Debian

Apache Spark è un framework computazionale distribuito open source creato per fornire risultati computazionali più rapidi. È un motore computazionale in memoria, il che significa che i dati verranno elaborati in memoria.

Spark supporta varie API per streaming, elaborazione di grafici, SQL, MLLib. Supporta anche Java, Python, Scala e R come linguaggi preferiti. Spark viene installato principalmente nei cluster Hadoop ma puoi anche installare e configurare Spark in modalità autonoma.

In questo articolo vedremo come installare Apache Spark nelle distribuzioni basate su Debian e Ubuntu.

Installa Java e Scala su Ubuntu

Per installare Apache Spark in Ubuntu, devi avere Java e Scala installati sul tuo computer. La maggior parte delle distribuzioni moderne viene fornita con Java installato per impostazione predefinita e puoi verificarlo utilizzando il seguente comando.

java -version

Se nessun output, puoi installare Java utilizzando il nostro articolo su come installare Java su Ubuntu o semplicemente eseguire i seguenti comandi per installare Java su Ubuntu e distribuzioni basate su Debian.

sudo apt update
sudo apt install default-jre
java -version

Successivamente, puoi installare Scala dal repository apt eseguendo i seguenti comandi per cercare scala e installarlo.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Per verificare l'installazione di Scala, esegui il comando seguente.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installa Apache Spark su Ubuntu

Ora vai alla pagina di download ufficiale di Apache Spark e prendi la versione più recente (ovvero 3.1.1) al momento della stesura di questo articolo. In alternativa, puoi utilizzare il comando wget per scaricare il file direttamente nel terminale.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Ora apri il tuo terminale e passa alla posizione in cui è posizionato il file scaricato ed esegui il comando seguente per estrarre il file tar di Apache Spark.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Infine, sposta la directory Spark estratta nella directory /opt.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Configurare le variabili ambientali per Spark

Ora devi impostare alcune variabili ambientali nel tuo file .profile prima di avviare Spark.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Per assicurarsi che queste nuove variabili di ambiente siano raggiungibili all'interno della shell e disponibili per Apache Spark, è inoltre obbligatorio eseguire il comando seguente per rendere effettive le modifiche recenti.

source ~/.profile

Tutti i file binari relativi a Spark per avviare e arrestare i servizi si trovano nella cartella sbin.

ls -l /opt/spark

Avvia Apache Spark in Ubuntu

Esegui il comando seguente per avviare il servizio master e il servizio slave Spark.

start-master.sh
start-workers.sh spark://localhost:7077

Una volta avviato il servizio, accedere al browser e digitare il seguente URL di accesso alla pagina spark. Dalla pagina puoi vedere che il mio servizio master e slave è avviato.

http://localhost:8080/
OR
http://127.0.0.1:8080

Puoi anche verificare se spark-shell funziona correttamente avviando il comando spark-shell.

spark-shell

Per questo articolo è tutto. Vi aggiorneremo molto presto con un altro articolo interessante.