I den här guiden tar vi dig steg för steg för att installera Apache Hadoop på en Linux-ruta (Ubuntu). Detta är två delar process
- Del 1) Ladda ner och installera Hadoop
- Del 2) Konfigurera Hadoop
Det finns två förutsättningar
- Du måste ha Ubuntu installerat och kört
- Du måste ha Java installerat.
Del 1) Ladda ner och installera Hadoop
Steg 1) Lägg till en Hadoop-systemanvändare med kommandot nedan
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Ange ditt lösenord, namn och andra detaljer.
OBS! Det finns en möjlighet till nedan nämnda fel i denna installations- och installationsprocess.
"hduser finns inte i sudoers-filen. Denna incident kommer att rapporteras."
Detta fel kan lösas genom inloggning som en rotanvändare
Utför kommandot
sudo adduser hduser_ sudo
Re-login as hduser_
Steg 2) Konfigurera SSH
För att hantera noder i ett kluster kräver Hadoop SSH-åtkomst
Byt först användaren, ange följande kommando
su - hduser_
Detta kommando skapar en ny nyckel.
ssh-keygen -t rsa -P ""
Aktivera SSH-åtkomst till lokal maskin med den här nyckeln.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Testa nu SSH-installationen genom att ansluta till localhost som 'hduser' -användare.
ssh localhost
Obs: Observera, om du ser fel nedan som svar på 'ssh localhost', finns det en möjlighet att SSH inte är tillgängligt på detta system-
För att lösa detta -
Rensa SSH med,
sudo apt-get purge openssh-server
Det är god praxis att rensa innan installationen påbörjas
Installera SSH med kommandot-
sudo apt-get install openssh-server
Steg 3) Nästa steg är att ladda ner Hadoop
Välj Stabil
Välj tar.gz-filen (inte filen med src)
När en nedladdning är klar navigerar du till katalogen som innehåller tarfilen
Stiga på,
sudo tar xzf hadoop-2.2.0.tar.gz
Nu byter namn på hadoop-2.2.0 till hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Del 2) Konfigurera Hadoop
Steg 1) Ändra ~ / .bashrc- filen
Lägg till följande rader i slutet av filen ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Käll nu denna miljökonfiguration med kommandot nedan
. ~/.bashrc
Steg 2) Konfigurationer relaterade till HDFS
Ställ in JAVA_HOME inuti filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Med
Det finns två parametrar i $ HADOOP_HOME / etc / hadoop / core-site.xml som måste ställas in-
1. 'hadoop.tmp.dir' - Används för att ange en katalog som Hadoop kommer att använda för att lagra dess datafiler.
2. 'fs.default.name' - Detta anger standardfilsystemet.
För att ställa in dessa parametrar, öppna core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopiera nedanför raden mellan taggar
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navigera till katalogen $ HADOOP_HOME / etc / Hadoop
Skapa nu den katalog som nämns i core-site.xml
sudo mkdir -p
Bevilja behörigheter till katalogen
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Steg 3) Kartförminska konfigurationen
Innan du börjar med dessa konfigurationer, kan vi ställa in HADOOP_HOME-sökvägen
sudo gedit /etc/profile.d/hadoop.sh
Och Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Nästa ange
sudo chmod +x /etc/profile.d/hadoop.sh
Avsluta terminalen och starta om igen
Skriv echo $ HADOOP_HOME. För att verifiera sökvägen
Kopiera nu filer
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Öppna mapred-site.xml fil
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Lägg till nedanstående inställningsrader mellan taggarna
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Öppna $ HADOOP_HOME / etc / hadoop / hdfs-site.xml enligt nedan,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Lägg till nedanstående inställningsrader mellan taggar
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Skapa en katalog som anges i inställningen ovan-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Steg 4) Innan vi startar Hadoop för första gången, formatera HDFS med kommandot nedan
$HADOOP_HOME/bin/hdfs namenode -format
Steg 5) Starta Hadoop-kluster med en enda nod med kommandot nedan
$HADOOP_HOME/sbin/start-dfs.sh
En utgång av ovanstående kommando
$HADOOP_HOME/sbin/start-yarn.sh
Använd 'jps' verktyg / kommando för att verifiera om alla Hadoop-relaterade processer körs eller inte.
Om Hadoop har startat framgångsrikt ska en utdata från jps visa NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Steg 6) Stoppa Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh