在线甘特图|横道图|项目管理|计划管理 zz-plan

人员、任务、进度、工时、周期、依赖关系一目了然。无论项目大小、简单复杂都能轻松管理

编写Nutch插件

软件版本：Nutch 1.7 Nutch Plugin的所有资料，都在官网这里, PluginCentral ##前提在Eclipse里运行Nutch Extension 和 Extension-point的关系Extension point类似与Java语言里的接口(interface), extension 则是具体的实现(implementation)。 About Plugins里有一句话，Each extension-point defines an interfa

on 2014-02-21 | by soulmachine

CentOS上编译 Hadoop 2.2.0

下载了Hadoop预编译好的二进制包，hadoop-2.2.0.tar.gz，启动起来后，总是出现这种警告： WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因是apache官网提供的二进制包，里面的native库，是32位的，坑跌啊，现在服务器谁还有32位的啊。

on 2014-02-14 | by soulmachine

在CentOS上安装HBase 0.96

环境：CentOS 6.5, jdk 1.7, HBase 0.96.1.1 ##（可选）创建新用户，并配置好SSH无密码登录一般我倾向于把需要启动daemon进程，对外提供服务的程序，即服务器类的程序，安装在单独的用户下面。这样可以做到隔离，运维方面，安全性也提高了。创建一个新的group, $ sudo groupadd hbase 创建一个新的用户，并加入group, $ sudo useradd -g hbase hbase 给新用户设置密码， $ sudo pas

on 2014-02-09 | by soulmachine

在CentOS上安装ZooKeeper集群

环境：CentOS 6.5, jdk 1.7, ZooKeeper 3.4.5 本文主要参考官网的Getting Started ##（可选）创建新用户一般我倾向于把需要启动daemon进程，对外提供服务的程序，即服务器类的程序，安装在单独的用户下面。这样可以做到隔离，运维方面，安全性也提高了。创建一个新的group, $ sudo groupadd zookeeper 创建一个新的用户，并加入group, $ sudo useradd -g zookeeper zooke

on 2014-02-08 | by soulmachine

Hadoop多用户的配置(Hadoop 2.x)

假设我们以名为hadoop的用户，建好了集群，见在CentOS上安装Hadoop 2.x 集群。通常，我们会把这个集群共享给多个用户，而不是让大家都登录为hadoop，这样做有几个好处：一个用户不能修改另一个用户的的文件在hadoop web管理页面，可以很方便的看到不同的用户的job 现在集群中有一台机器，上面有一个用户名为 hbase 的用户，他想要使用hadoop集群，怎么配置呢？ ##1. 安装hadoop客户端 ###1.1 下载，解压下载跟hadoop集群

on 2014-02-06 | by soulmachine

在CentOS上安装Hadoop 2.x 集群

环境：CentOS 6.5, OPenJDK 1.7, Hadoop 2.2.0 本文主要参考官网的文档，Hadoop 2.2.0 Single Node Setup， Hadoop 2.2.0 Cluster Setup ##（可选）创建新用户一般我倾向于把需要启动daemon进程，对外提供服务的程序，简单的说，就是服务器类程序，安装在单独的用户下面。这样可以做到隔离，运维方面，安全性也提高了。创建一个新的group, $ sudo groupadd hadoop 创建

on 2014-02-05 | by soulmachine

把Nutch爬虫部署到Hadoop集群上

软件版本：Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中，Nutch 快速入门(Nutch 1.7)，Nutch 快速入门(Nutch 2.2.1)，在Eclipse里运行Nutch，Nutch都是跑在单机上，本文把Nutch部署到Hadoop集群上，在真正的分布式Hadoop集群上跑。 ##前提学会了搭建一个分布式Hadoop集群，见在CentOS上安装Hadoop集群学会了单机跑Nutch，见Nutch 快

on 2014-02-05 | by soulmachine

Hadoop多用户的配置(Hadoop 1.x)

假设我们以名为hadoop的用户，建好了集群，见在CentOS上安装Hadoop集群。通常，我们会把这个集群共享给多个用户，而不是让大家都登录为hadoop，这样做有几个好处：一个用户不能修改另一个用户的的文件在hadoop web管理页面，可以很方便的看到不同的用户的job 现在集群中有一台机器，上面有一个用户名为 hbase 的用户，他想要使用hadoop集群，怎么配置呢？ ##1. 安装hadoop客户端 ###1.1 下载，解压下载跟hadoop集群一样的ha

on 2014-02-03 | by soulmachine

在CentOS上安装Hadoop集群

Ubuntu上安装，请参考我的另一篇博客，在Ubuntu上安装Hadoop。环境：CentOS 6.5, OPenJDK 1.7, Hadoop 1.2.1 本文主要参考官网的文档，Hadoop 1.2.1 Getting Started ##1 单机模式(Standalone Mode)为了能顺利安装成功，我们先练习在单台机器上安装Hadoop。在单台机器上，可以配置成单机模式(Standalone Mode)和伪分布式模式(Pseudo-Distributed Mode

on 2014-02-02 | by soulmachine

Nutch 快速入门(Nutch 2.2.1)

本文主要参考Nutch 2.x Tutorial Nutch 2.x 与 Nutch 1.x 相比，剥离出了存储层，放到了gora中，可以使用多种数据库，例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。 ##1. 安装并运行HBase为了简单起见，使用Standalone模式，参考 HBase Quick start ###1.1 下载，解压 wget http://archive.apache.org/di

on 2014-02-01 | by soulmachine