Tagged: hadoop

实验室hadoop集群注意事项

一、如果是将备份的虚拟机文件重新添加到virtualbox时,需要注意以下几个要点:
1、添加新的虚拟机,选择已有虚拟机文件,导入成功后,进入设置界面,网络选择桥接网络,并记录当前虚拟机的MAC地址。
2、由于重新导入时网卡相当于新的网卡,因此需要删除旧网卡信息。
输入命令:sudo vim /etc/udev/rules.d/70-persistent-net.rules 即网卡的信息,保留最新的网卡信息,其余网卡信息删除。
3、配置当前网卡信息。
输入命令:sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0 修改对应的HWADDR属性,即更改为当前虚拟机的MAC地址。
4、上述操作完成,输入reboot命令,重启虚拟机即可。并可通过ifconfig命令验证网络是否已经连接成功。 查看全文

Hadoop三节点集群备忘

说明:本博文为博主自己的安装笔记,配置中的问题欢迎各位留言指出。转载请注明出处。

基本配置信息

集群信息(所有节点)

基于virtualbox安装三台虚拟机,使用centos6.7操作系统,

主机名分别为:masterslave1slave2

对应的ip分别为:192.168.1.201192.168.1.202192.168.1.203查看全文

在Hadoop 2.6环境下使用Mahout 0.9

因为师妹毕设需要,实验室的集群原先的Mahout 0.11.1跟教程上关于随机森林算法有些出入,由于急于使用,因此想换回低版本。在Cloudera公司的CDN 5.3下用的就是Mahout 0.9版本,为了能够实验室的Hadoop 2.6集群环境下使用Mahout 0.9,需要对Mahout 0.9进行编译,因为Mahout 0.9官方提供的版本上只能兼容hadoop 1.x系列,因此需要使用源代码重新进行编译(参考:mahout, https://mahout.apache.org/developers/buildingmahout.html)。

为了方便大家,特将编译之后可用于Hadoop 2.x版本的Mahout提供下载:http://pan.baidu.com/s/1eRRBP2U
查看全文

Mahout随机森林算法源码分析

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。

Mahout中实现决策树算法的有两个(quick start),分别是Partial ImplementationBreiman Example,可以点击链接到相应的网页查看其官方实例。其中Breiman Example是单机版的,而Partial Implementation是可以使用map-reduce模式的。

Partial Implementation可以分为三步:Describe、BuildForest、TestForest,共称为决策树三部曲。以前有写过相关的内容,今次重新写这个算法的分析,应该会有一些更加深入的认知。本篇介绍三部曲之一Describe。

Describe在mahout-examples-0.7-job.jar包中的\org\apache\mahout\classifier\df\tools 路径下,在myeclipse中打开此文件,可以看到该类的源码。直接运行该类(含有main函数,可以直接运行),可以看到该类的使用指南: 查看全文