Come installare Apache Spark su Debian 11
Questo tutorial esiste per queste versioni del sistema operativo
- Debian 11 (Bullseye)
- Debian 10 (Buster)
Su questa pagina
- Prerequisiti
- Installa Java
- Installa Apache Spark
- Avvia Apache Spark
- Accedi all'interfaccia utente Web di Apache Spark
- Connetti Apache Spark tramite riga di comando
- Ferma Master e Slave
- Conclusione
Apache Spark è un framework computazionale gratuito, open source, generico e distribuito creato per fornire risultati computazionali più rapidi. Supporta diverse API per lo streaming, l'elaborazione di grafici inclusi Java, Python, Scala e R. In generale, Apache Spark può essere utilizzato nei cluster Hadoop, ma è anche possibile installarlo in modalità autonoma.
In questo tutorial, ti mostreremo come installare il framework Apache Spark su Debian 11.
Prerequisiti
- Un server che esegue Debian 11.
- Sul server è configurata una password di root.
Installa Java
Apache Spark è scritto in Java. Quindi Java deve essere installato nel tuo sistema. Se non è installato, puoi installarlo usando il seguente comando:
apt-get install default-jdk curl -y
Una volta installato Java, verifica la versione di Java utilizzando il seguente comando:
java --version
Dovresti ottenere il seguente output:
openjdk 11.0.12 2021-07-20 OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2) OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)
Installa Apache Spark
Al momento della stesura di questo tutorial, l'ultima versione di Apache Spark è la 3.1.2. Puoi scaricarlo usando il seguente comando:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
Una volta completato il download, estrai il file scaricato con il seguente comando:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
Successivamente, sposta la directory estratta in /opt con il seguente comando:
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
Successivamente, modifica il file ~/.bashrc e aggiungi la variabile del percorso Spark:
nano ~/.bashrc
Aggiungi le seguenti righe:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Salva e chiudi il file, quindi attiva la variabile d'ambiente Spark utilizzando il seguente comando:
source ~/.bashrc
Avvia Apache Spark
È ora possibile eseguire il comando seguente per avviare il servizio master Spark:
start-master.sh
Dovresti ottenere il seguente output:
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out
Per impostazione predefinita, Apache Spark è in ascolto sulla porta 8080. Puoi verificarlo utilizzando il seguente comando:
ss -tunelp | grep 8080
Otterrai il seguente output:
tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->
Successivamente, avvia il processo di lavoro Apache Spark utilizzando il seguente comando:
start-slave.sh spark://your-server-ip:7077
Accedi all'interfaccia utente Web di Apache Spark
È ora possibile accedere all'interfaccia Web di Apache Spark utilizzando l'URL http://your-server-ip:8080. Dovresti vedere il servizio master e slave di Apache Spark nella schermata seguente:
Fare clic sull'id del lavoratore. Dovresti vedere le informazioni dettagliate del tuo lavoratore nella schermata seguente:
Connetti Apache Spark tramite la riga di comando
Se desideri connetterti a Spark tramite la sua shell di comando, esegui i comandi seguenti:
spark-shell
Una volta connesso, otterrai la seguente interfaccia:
Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.1.2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Type in expressions to have them evaluated. Type :help for more information. scala>
Se vuoi usare Python in Spark. È possibile utilizzare l'utilità della riga di comando pyspark.
Innanzitutto, installa la versione 2 di Python con il seguente comando:
apt-get install python -y
Una volta installato, puoi connettere Spark con il seguente comando:
pyspark
Una volta connesso, dovresti ottenere il seguente output:
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 3.1.2 /_/ Using Python version 3.9.2 (default, Feb 28 2021 17:03:44) Spark context Web UI available at http://debian11:4040 Spark context available as 'sc' (master = local[*], app id = local-1633769632964). SparkSession available as 'spark'. >>>
Stop Master e Slave
Innanzitutto, arresta il processo slave utilizzando il seguente comando:
stop-slave.sh
Otterrai il seguente output:
stopping org.apache.spark.deploy.worker.Worker
Quindi, arresta il processo principale utilizzando il seguente comando:
stop-master.sh
Otterrai il seguente output:
stopping org.apache.spark.deploy.master.Master
Conclusione
Congratulazioni! hai installato correttamente Apache Spark su Debian 11. Ora puoi utilizzare Apache Spark nella tua organizzazione per elaborare set di dati di grandi dimensioni