在Linux集群上安装和配置Spark
作者:网络转载 发布时间:[ 2015/2/2 11:13:47 ] 推荐标签:Linux 操作系统
5)配置mapred-site.xml文件
<configuration>
/*hadoop对map-reduce运行矿建一共提供了3种实现,在mapred-site.xml中通过“mapreduce.framework.name”这个属性来设置为"classic"."yarn"或者“local”*/
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
/*MapReduce JobHistory Server地址*/
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master:10020</value>
</property>
/*MapReduce JobHistory Server web UI 地址*/
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>Master:19888</value>
</property>
</configuration>
(4)创建namenode和datanode目录,并配置其相应路径
1)创建namenode和datanode目录,
mkdir /hdfs/namenode
mkdir /hdfs/datanode
2)执行命令后,再次回到目录,配置hdfs-site.xml文件,在文件中添加如下内容
<configuration>
/*配置主节点名和端口*/
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:9001</value>
</property>
/*配置从节点和端口号*/
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hdfs/namenode</value>
</property>
/*配置datanode的数据存储目录*/
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hdfs/datanode</value>
</property>
/*配置副本数*/
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
/*将dfs.webhdfs.enabled属性设置为true,否则不能使用webhdfs的LISTSTATUS,LISTFILESTATUS等需要列出文件,文件夹状态的命令,因为这些信息都是由namenode保存的*/
<proeprty>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
(5)配置Master和Slave文件
1)Master文件负责配置主节点的主机名
Master /*Master为主节点主机名*/
2)配置Slaves文件添加从节点主机名
/*Slave为从节点主机名*/
Slave1
Slave2
Slave3
Slave4
Slave5
(6)将Hadoop所有文件通过pssh发送到各个节点
./pssh -h hosts.txt -r /hadoop /
(7)格式化Namenode(在Hadoop根目录下)
./bin/hadoop namenode -format
(8)启动Hadoop
./sbin/start-all.sh
(9)查看是否配置和启动成功
jps
DataNode
ResourceManager
Jps
NodeManager
NameNode
SecondaryNameNode
ps-aux|grep *DataNode* /*查看DataNode进程*/
5 安装Spark
1)下载spark
2)解压
3)配置
编辑conf/Spark-env.sh文件,加入下面的配置参数
export SCALA_HOME=/paht/to/scala-2.10.4
export SPARK_WORKER_MEMORY=7g
export SPARK_MASTER_IP=172.16.0.140
export MASTER=spark://172.16.0.140:7077
4)配置slaves文件
编辑conf/slaves文件,以5个Worker节点为例,将节点的主机名加入slaves文件中
Slave1
Slave2
Slave3
Slave4
Slave5
6 启动集群
(1)Spark启动与关闭
1)在Spark根目录启动Spark
./sbin/start-all.sh
2)关闭Spark
./sbin/stop-all.sh
(2)Hadoop的启动与关闭
1)在Hadoop根目录启动Hadoop
2)关闭Hadoop
(3)检测是否安装成功
1)正常状态下的Master节点如下。
2)利用ssh登录Worker节点

sales@spasvo.com