Så här installerar du Hadoop med steg för steg-konfiguration på Ubuntu

Innehållsförteckning:

Anonim

I den här guiden tar vi dig steg för steg för att installera Apache Hadoop på en Linux-ruta (Ubuntu). Detta är två delar process

  • Del 1) Ladda ner och installera Hadoop
  • Del 2) Konfigurera Hadoop

Det finns två förutsättningar

  • Du måste ha Ubuntu installerat och kört
  • Du måste ha Java installerat.

Del 1) Ladda ner och installera Hadoop

Steg 1) Lägg till en Hadoop-systemanvändare med kommandot nedan

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Ange ditt lösenord, namn och andra detaljer.

OBS! Det finns en möjlighet till nedan nämnda fel i denna installations- och installationsprocess.

"hduser finns inte i sudoers-filen. Denna incident kommer att rapporteras."

Detta fel kan lösas genom inloggning som en rotanvändare

Utför kommandot

sudo adduser hduser_ sudo

Re-login as hduser_

Steg 2) Konfigurera SSH

För att hantera noder i ett kluster kräver Hadoop SSH-åtkomst

Byt först användaren, ange följande kommando

su - hduser_

Detta kommando skapar en ny nyckel.

ssh-keygen -t rsa -P ""

Aktivera SSH-åtkomst till lokal maskin med den här nyckeln.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Testa nu SSH-installationen genom att ansluta till localhost som 'hduser' -användare.

ssh localhost

Obs: Observera, om du ser fel nedan som svar på 'ssh localhost', finns det en möjlighet att SSH inte är tillgängligt på detta system-

För att lösa detta -

Rensa SSH med,

sudo apt-get purge openssh-server

Det är god praxis att rensa innan installationen påbörjas

Installera SSH med kommandot-

sudo apt-get install openssh-server

Steg 3) Nästa steg är att ladda ner Hadoop

Välj Stabil

Välj tar.gz-filen (inte filen med src)

När en nedladdning är klar navigerar du till katalogen som innehåller tarfilen

Stiga på,

sudo tar xzf hadoop-2.2.0.tar.gz

Nu byter namn på hadoop-2.2.0 till hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Del 2) Konfigurera Hadoop

Steg 1) Ändra ~ / .bashrc- filen

Lägg till följande rader i slutet av filen ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Käll nu denna miljökonfiguration med kommandot nedan

. ~/.bashrc

Steg 2) Konfigurationer relaterade till HDFS

Ställ in JAVA_HOME inuti filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Med

Det finns två parametrar i $ HADOOP_HOME / etc / hadoop / core-site.xml som måste ställas in-

1. 'hadoop.tmp.dir' - Används för att ange en katalog som Hadoop kommer att använda för att lagra dess datafiler.

2. 'fs.default.name' - Detta anger standardfilsystemet.

För att ställa in dessa parametrar, öppna core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopiera nedanför raden mellan taggar

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navigera till katalogen $ HADOOP_HOME / etc / Hadoop

Skapa nu den katalog som nämns i core-site.xml

sudo mkdir -p 

Bevilja behörigheter till katalogen

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Steg 3) Kartförminska konfigurationen

Innan du börjar med dessa konfigurationer, kan vi ställa in HADOOP_HOME-sökvägen

sudo gedit /etc/profile.d/hadoop.sh

Och Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Nästa ange

sudo chmod +x /etc/profile.d/hadoop.sh

Avsluta terminalen och starta om igen

Skriv echo $ HADOOP_HOME. För att verifiera sökvägen

Kopiera nu filer

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Öppna mapred-site.xml fil

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Lägg till nedanstående inställningsrader mellan taggarna och

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Öppna $ HADOOP_HOME / etc / hadoop / hdfs-site.xml enligt nedan,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Lägg till nedanstående inställningsrader mellan taggar och

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Skapa en katalog som anges i inställningen ovan-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Steg 4) Innan vi startar Hadoop för första gången, formatera HDFS med kommandot nedan

$HADOOP_HOME/bin/hdfs namenode -format

Steg 5) Starta Hadoop-kluster med en enda nod med kommandot nedan

$HADOOP_HOME/sbin/start-dfs.sh

En utgång av ovanstående kommando

$HADOOP_HOME/sbin/start-yarn.sh

Använd 'jps' verktyg / kommando för att verifiera om alla Hadoop-relaterade processer körs eller inte.

Om Hadoop har startat framgångsrikt ska en utdata från jps visa NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Steg 6) Stoppa Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh