twtbgn

浏览: 45179 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop被设计用来处理海量数据，这种数据可以是结构化的，半结构化的，甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中，也可能存放在DB中)。它处理数据的核心就是map-reduce模型，但是，无论是map还是reduce，它们的输入输出数据都是key-value对的形式，这种key-value对的形式我们可以看做是结构化的数据。同时，对于reduce的输入，当然就是map的输出，而reduce、map的输出又直接可以在map和reduce处理函数中定义，那么这就只剩下map的输入了，也就是说，Hadoop如何把输入文件包装成key-value对的形式交给map来处理，同时 ...

2013-05-20 11:30
浏览 859
评论(0)
分类:开源软件

一起读nutch源码一 -- crawl

博客分类：

nutch

crawl：one-step crawler for intranets 一站式的爬取。也就是将 inject，generate，fetch，parse，updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。 crawl类在 org.apache.nutch.crawl.Crawl 先看main方法： public static void main(String args[]) throws Exception { //读取配置文件，包括nutch-default.xml,nutch-site.xml Configuration conf ...

2013-05-15 18:06
浏览 783
评论(0)

nutch 配置文件

博客分类：

nutch

nutch中主要的配置文件是nutch-default.xml. nutch启动的时候会读取这个文件，里面基本包含了nutch所有的相关配置，包括不同的plugin在哪些文件中进行定义等在nutch-default.xml中有plugin.includes的属性，在这里面加入你要使用的plugin id，这些pulgin id定义在其他的文件中，比如parse的plugin定义在parse-plugins.xml中

2013-05-15 15:13
浏览 514
评论(0)

hive中udf例子

博客分类：

hive

hive中自带了一下函数，但是平常开发中可能需要专门开发一下函数来应对特定的需求，下面写一个udf的例子。 udf是对输入的每行的一列或多个列的值进行计算，并返回值。导入hive-exec-0.10.0.jar 继承UDF类，重写evaluate方法。下面实现一个类似oracle中row_number() 的类 /** * 实现类似oracle中row_number()函数的功能 * oracle: select row_number() over (partition by col1 order by col2) from table; * hive: sel ...

2013-05-14 11:08
浏览 2199
评论(0)

eclipse中导入nutch源码更新

博客分类：

hadoop
nutch

在前一篇eclipse中导入nutch源码后，发现运行的时候报出各种错误，这里重新记录安装步骤，并测试。安装前准备： eclipse svn插件 eclipse ivy插件 1. 打开eclipse， File-> New-> Other -> SVN -> 从SVN检出项目，选择next 2. 创� ...

2013-05-13 18:01
浏览 1091
评论(0)

eclipse中导入nutch源码

博客分类：

nutch

eclipse java nutch

1、下载并解压eclipse（集成开发环境）下载地址：http://www.eclipse.org/downloads/，下载Eclipse IDE for Java EE Developers2、安装Subclipse插件（SVN客户端）插件地址：http://subclipse.tigris.org/update_1.8.x，3、安装IvyDE插件（下载依赖Jar）插件地址：http://www.apache.org/dist/ant/ivyde/updatesite/4、签出代码 File > New > Project > SVN > 从SVN 检出项目 ...

2013-05-10 16:22
浏览 2684
评论(0)
分类:开源软件

hadoop中设置同一组中所有用户都有权限操作

博客分类：

hadoop

hadoop 权限

在hadoop中有时候会需要一个组中的多个用户都能够有权限操作，比如nutch和hadoop的结合中，一个nutch用户负责爬取，hadoop用户负责维护文件系统，那这时这2个用户都要有权限来操作hadoop的文件系统了，可以如下方法：方法一： bin/hadoop fs -chmod -R 774 /user 将改变/user下面的所有文件为同组用户读写执行方法二：修改hdfs-site.xml <property> <name>dfs.permissions</name> <value>false</value> ...

2013-05-10 10:17
浏览 1721
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

转载--Job的数据输入格式化器—InputFormat

一起读nutch源码一 -- crawl

nutch 配置文件

hive中udf例子

eclipse中导入nutch源码更新

eclipse中导入nutch源码

hadoop中设置同一组中所有用户都有权限操作

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

转载--Job的数据输入格式化器—InputFormat

一起读nutch源码一 -- crawl

nutch 配置文件

hive中udf例子

eclipse中导入nutch源码更新

eclipse中导入nutch源码

hadoop中设置同一组中所有用户都有权限操作

最近访客更多访客>>