实验室hadoop集群注意事项

一、如果是将备份的虚拟机文件重新添加到virtualbox时,需要注意以下几个要点:
1、添加新的虚拟机,选择已有虚拟机文件,导入成功后,进入设置界面,网络选择桥接网络,并记录当前虚拟机的MAC地址。
2、由于重新导入时网卡相当于新的网卡,因此需要删除旧网卡信息。
输入命令:sudo vim /etc/udev/rules.d/70-persistent-net.rules 即网卡的信息,保留最新的网卡信息,其余网卡信息删除。
3、配置当前网卡信息。
输入命令:sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0 修改对应的HWADDR属性,即更改为当前虚拟机的MAC地址。
4、上述操作完成,输入reboot命令,重启虚拟机即可。并可通过ifconfig命令验证网络是否已经连接成功。

二、使用eclipse安装Mapreduce插件及执行mapreduce程序
1、安装所对应的eclipse插件,如笔者的hadoop版本为2.6,则需要将对应版本的插件jar包传至eclipse的插件文件夹下,并重启eclipse,附上hadoop-eclipse-plugin-2.6.0.jar的下载地址:链接:http://pan.baidu.com/s/1jIFKVyu 密码:iqhz

2、分别按照下图示意,设置Mapreduce插件。

① 重启后默认没有Mapreduce的工作区,因此按下图示意添加:

1
2

② 添加对应的Hadoop服务器:
3

③ 图示为笔者的Hadoop集群信息:
4

3、第一次新建Mapreduce工程时设置hadoop的本地路径,该hadoop文件包需要时在win上可以执行的,我将2.6版本对应的hadoop文件包下载地址分享出来:链接:http://pan.baidu.com/s/1hrNawN6 密码:edw9

如下图所示进行设置:

5

6

7

这样新建的工程会将使用到的hadoopjar包自动引用进来。

4、设置hadoop环境变量

因为在windows环境下进行Mapreduce程序的调试,需要设置对应的hadoop环境变量,如下图所示:

8

9

设置完成后,就可进行再windows环境下进行Mapreduce程序的调试。

 

三、在eclipse下运行mapreduce程序在控制台中显示如图

1

但是不影响程序产生执行结果,但是就无法看到mapreduce的执行过程,这种情况一般是由于log4j这个日志信息打印模块的配置信息没有给出造成的,可以在项目的src目录下,新建一个文件,命名为“log4j.properties”,填入以下信息:

当然上述包含了所有配置信息,大多都被注释掉了~

三、开发Mapreduce程序需要引入哪些jar包(hadoop2.6为例说明)

虽然在eclipse软件中设置了hadoop的路径之后,再新建Mapreduce工程会自动将所需jar包导入,但如果是别人的mapreduce工程导入进mapreduce的话,就需要手动引入这些jar包,因此将需要引入的jar包做了整理,需手动导入以下目录的jar包,或者可以将这些jar提前保存为用户库,方便下次使用:

 

 

3 Responses

  1. 凯哥自媒体说道:

    分享的不错,谢谢

  2. 运营-子客说道:

    比较全唉 可以借鉴

发表评论

电子邮件地址不会被公开。 必填项已用*标注