编写Nutch插件

软件版本:Nutch 1.7 Nutch Plugin的所有资料,都在官网这里, PluginCentral ##前提在Eclipse里运行Nutch Extension 和 Extension-point的关系Extension point类似与Java语言里的接口(interface), extension 则是具体的实现(implementation)。 About Plugins里有一句话,Each extension-point defines an interfa

CentOS上编译 Hadoop 2.2.0

下载了Hadoop预编译好的二进制包,hadoop-2.2.0.tar.gz,启动起来后,总是出现这种警告: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 原因是apache官网提供的二进制包,里面的native库,是32位的,坑跌啊,现在服务器谁还有32位的啊。

在CentOS上安装HBase 0.96

环境:CentOS 6.5, jdk 1.7, HBase 0.96.1.1 ##(可选)创建新用户,并配置好SSH无密码登录一般我倾向于把需要启动daemon进程,对外提供服务的程序,即服务器类的程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。 创建一个新的group, $ sudo groupadd hbase 创建一个新的用户,并加入group, $ sudo useradd -g hbase hbase 给新用户设置密码, $ sudo pas

在CentOS上安装ZooKeeper集群

环境:CentOS 6.5, jdk 1.7, ZooKeeper 3.4.5 本文主要参考官网的Getting Started ##(可选)创建新用户一般我倾向于把需要启动daemon进程,对外提供服务的程序,即服务器类的程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。 创建一个新的group, $ sudo groupadd zookeeper 创建一个新的用户,并加入group, $ sudo useradd -g zookeeper zooke

Hadoop多用户的配置(Hadoop 2.x)

假设我们以名为hadoop的用户,建好了集群,见在CentOS上安装Hadoop 2.x 集群。通常,我们会把这个集群共享给多个用户,而不是让大家都登录为hadoop,这样做有几个好处: 一个用户不能修改另一个用户的的文件 在hadoop web管理页面,可以很方便的看到不同的用户的job 现在集群中有一台机器,上面有一个用户名为 hbase 的用户,他想要使用hadoop集群,怎么配置呢? ##1. 安装hadoop客户端 ###1.1 下载,解压下载跟hadoop集群

在CentOS上安装Hadoop 2.x 集群

环境:CentOS 6.5, OPenJDK 1.7, Hadoop 2.2.0 本文主要参考官网的文档,Hadoop 2.2.0 Single Node Setup, Hadoop 2.2.0 Cluster Setup ##(可选)创建新用户一般我倾向于把需要启动daemon进程,对外提供服务的程序,简单的说,就是服务器类程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。 创建一个新的group, $ sudo groupadd hadoop 创建

把Nutch爬虫部署到Hadoop集群上

软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 ##前提 学会了搭建一个分布式Hadoop集群,见在CentOS上安装Hadoop集群 学会了单机跑Nutch,见Nutch 快

Hadoop多用户的配置(Hadoop 1.x)

假设我们以名为hadoop的用户,建好了集群,见在CentOS上安装Hadoop集群。通常,我们会把这个集群共享给多个用户,而不是让大家都登录为hadoop,这样做有几个好处: 一个用户不能修改另一个用户的的文件 在hadoop web管理页面,可以很方便的看到不同的用户的job 现在集群中有一台机器,上面有一个用户名为 hbase 的用户,他想要使用hadoop集群,怎么配置呢? ##1. 安装hadoop客户端 ###1.1 下载,解压下载跟hadoop集群一样的ha

在CentOS上安装Hadoop集群

Ubuntu上安装,请参考我的另一篇博客,在Ubuntu上安装Hadoop。 环境:CentOS 6.5, OPenJDK 1.7, Hadoop 1.2.1 本文主要参考官网的文档,Hadoop 1.2.1 Getting Started ##1 单机模式(Standalone Mode)为了能顺利安装成功,我们先练习在单台机器上安装Hadoop。在单台机器上,可以配置成单机模式(Standalone Mode)和伪分布式模式(Pseudo-Distributed Mode

Nutch 快速入门(Nutch 2.2.1)

本文主要参考Nutch 2.x Tutorial Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。 ##1. 安装并运行HBase为了简单起见,使用Standalone模式,参考 HBase Quick start ###1.1 下载,解压 wget http://archive.apache.org/di