Ricerca nel sito web

Best practice per la distribuzione del server Hadoop su CentOS/RHEL 7 - Parte 1


In questa serie di articoli, tratteremo l'intero edificio Cloudera Hadoop Cluster Building con le migliori pratiche consigliate dal fornitore e dal industriale.

L'installazione del sistema operativo e i prerequisiti a livello del sistema operativo sono i primi passi per costruire un cluster Hadoop. Hadoop può essere eseguito sulle varie versioni della piattaforma Linux: CentOS, RedHat, Ubuntu, Debian<, SUSE ecc., Nella produzione in tempo reale, la maggior parte dei cluster Hadoop sono costruiti su RHEL/CentOS, noi utilizzerà CentOS 7 per la dimostrazione in questa serie di tutorial.

In un'organizzazione, l'installazione del sistema operativo può essere eseguita utilizzando kickstart. Se si tratta di un cluster da 3 a 4 nodi, è possibile l'installazione manuale, ma se creiamo un cluster grande con più di 10 nodi, è noioso installare i sistemi operativi uno per uno. In questo scenario entra in gioco il metodo Kickstart, possiamo procedere con l'installazione di massa utilizzando kickstart.

Il raggiungimento di buone prestazioni da un ambiente Hadoop dipende dal provisioning dell'hardware e del software corretti. Pertanto, la creazione di un cluster Hadoop di produzione richiede molta considerazione in termini di hardware e software.

In questo articolo, esamineremo vari benchmark sull'installazione del sistema operativo e alcune best practice per la distribuzione di Cloudera Hadoop Cluster Server su CentOS/RHEL 7.

Considerazioni importanti e best practice per la distribuzione del server Hadoop

Di seguito sono riportate le best practice per la configurazione della distribuzione di Cloudera Hadoop Cluster Server su CentOS/RHEL 7.

  • I server Hadoop non richiedono server standard aziendali per creare un cluster, ma richiedono hardware di base.
  • Nel cluster di produzione si consiglia di avere da 8 a 12 dischi dati. A seconda della natura del carico di lavoro, dobbiamo decidere in merito. Se il cluster è destinato ad applicazioni ad uso intensivo di calcolo, avere da 4 a 6 unità è la procedura migliore per evitare problemi di I/O.
  • Le unità dati dovrebbero essere partizionate individualmente, ad esempio, partendo da /data01 a /data10.
  • La configurazione RAID non è consigliata per i nodi di lavoro, poiché Hadoop stesso fornisce tolleranza agli errori sui dati replicando i blocchi in 3 per impostazione predefinita. Quindi JBOD è la soluzione migliore per i nodi di lavoro.
  • Per i server master, RAID 1 è la procedura migliore.
  • Il file system predefinito su CentOS/RHEL 7.x è XFS. Hadoop supporta XFS, ext3 ed ext4. Il file system consigliato è ext3 poiché è stato testato per garantire buone prestazioni.
  • Tutti i server dovrebbero avere la stessa versione del sistema operativo, almeno la stessa versione minore.
  • È consigliabile disporre di un hardware omogeneo (tutti i nodi di lavoro devono avere le stesse caratteristiche hardware (RAM, spazio su disco e core ecc.).
  • A seconda del carico di lavoro del cluster (carico di lavoro bilanciato, uso intensivo di calcolo, uso intensivo di I/O) e delle dimensioni, la pianificazione delle risorse (RAM, CPU) per server varierà.

Di seguito è riportato l'esempio di partizionamento del disco dei server con spazio di archiviazione da 24 TB.

Installazione di CentOS 7 per la distribuzione del server Hadoop

Cose che devi sapere prima di installare il server CentOS 7 per Hadoop Server.

  • Per i server Hadoop (nodi di lavoro) è sufficiente un'installazione minima, in alcuni casi la GUI può essere installata solo per server master o server di gestione dove possiamo utilizzare browser per interfacce utente Web di Strumenti di gestione.
  • La configurazione di reti, nome host e altre impostazioni relative al sistema operativo può essere eseguita dopo l'installazione del sistema operativo.
  • In tempo reale, i fornitori di server avranno la propria console per interagire e gestire i server, ad esempio: i server Dell avranno iDRAC, un dispositivo integrato nei server. Utilizzando l'interfaccia iDRAC possiamo installare il sistema operativo con un'immagine del sistema operativo nel nostro sistema locale.

In questo articolo abbiamo installato il sistema operativo (CentOS 7) nella macchina virtuale VMware. In questo caso non avremo più dischi per eseguire le partizioni. CentOS è simile a RHEL (stessa funzionalità), quindi vedremo i passaggi per installare CentOS.

1. Inizia scaricando l'immagine ISO CentOS 7.x nel tuo sistema Windows locale e selezionala durante l'avvio della macchina virtuale. Seleziona "Installa CentOS 7" come mostrato.

2. Seleziona la Lingua, l'impostazione predefinita sarà Inglese e fai clic su continua.

3. Selezione software: seleziona "Installazione minima" e fai clic su "Fine".

4. Imposta la password root come ci verrà richiesto di impostare.

5. Destinazione di installazione: questo è il passaggio importante a cui prestare attenzione. Dobbiamo selezionare il disco su cui deve essere installato il sistema operativo, per il sistema operativo deve essere selezionato il disco dedicato. Fai clic su "Destinazione installazione" e seleziona il disco, in tempo reale ci saranno più dischi, dobbiamo selezionare, preferibilmente "sda".

6. Altre opzioni di archiviazione: scegli la seconda opzione (configurerò il partizionamento) per configurare il partizionamento relativo al sistema operativo come /var, / var/log, /home, /tmp, /opt, /swap.

7. Una volta terminato, inizia l'installazione.

8. Una volta completata l'installazione, riavviare il server.

9. Accedi al server e imposta il nome host.

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

Riepilogo

In questo articolo, abbiamo esaminato i passaggi di installazione del sistema operativo e le migliori pratiche per il partizionamento del file system. Queste sono tutte linee guida generali, a seconda della natura del carico di lavoro, potremmo aver bisogno di concentrarci su più sfumature per ottenere le migliori prestazioni del cluster. La pianificazione dei cluster è un'arte per l'amministratore Hadoop. Nel prossimo articolo approfondiremo i prerequisiti a livello di sistema operativo e il rafforzamento della sicurezza.