- 浏览: 45179 次
- 性别:
- 来自: 北京
-
最新评论
-
xingzhou888:
你好! 看了你前两个mr的代码,写的很棒,想问下后面两个mr ...
mapreduce简单实现基于物品的协同过滤算法
文章列表
Hadoop被设计用来处理海量数据,这种数据可以是结构化的,半结构化的,甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中,也可能存放在DB中)。它处理数据的核心就是map-reduce模型,但是,无论是map还是reduce,它们的输入输出数据都是key-value对的形式,这种key-value对的形式我们可以看做是结构化的数据。同时,对于reduce的输入,当然就是map的输出,而reduce、map的输出又直接可以在map和reduce处理函数中定义,那么这就只剩下map的输入了,也就是说,Hadoop如何把输入文件包装成key-value对的形式交给map来处理,同时 ...
一起读nutch源码一 -- crawl
- 博客分类:
- nutch
crawl:one-step crawler for intranets 一站式的爬取。 也就是将 inject,generate,fetch,parse,updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。
crawl类在 org.apache.nutch.crawl.Crawl
先看main方法:
public static void main(String args[]) throws Exception {
//读取配置文件,包括nutch-default.xml,nutch-site.xml
Configuration conf ...
- 2013-05-15 18:06
- 浏览 783
- 评论(0)
nutch 配置文件
- 博客分类:
- nutch
nutch中主要的配置文件是nutch-default.xml. nutch启动的时候会读取这个文件,里面基本包含了nutch所有的相关配置,包括不同的plugin在哪些文件中进行定义等
在nutch-default.xml中有plugin.includes的属性,在这里面加入你要使用的plugin id,这些pulgin id定义在其他的文件中,比如parse的plugin定义在parse-plugins.xml中
- 2013-05-15 15:13
- 浏览 514
- 评论(0)
hive中udf例子
- 博客分类:
- hive
hive中自带了一下函数,但是平常开发中可能需要专门开发一下函数来应对特定的需求,下面写一个udf的例子。
udf是对输入的每行的一列或多个列的值进行计算,并返回值。
导入hive-exec-0.10.0.jar
继承UDF类,重写evaluate方法。
下面实现一个类似oracle中row_number() 的类
/**
* 实现类似oracle中row_number()函数的功能
* oracle: select row_number() over (partition by col1 order by col2) from table;
* hive: sel ...
- 2013-05-14 11:08
- 浏览 2199
- 评论(0)
在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。
安装前准备:
eclipse svn插件
eclipse ivy插件
1. 打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next
2. 创 ...
- 2013-05-13 18:01
- 浏览 1091
- 评论(0)
1、下载并解压eclipse(集成开发环境) 下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers2、安装Subclipse插件(SVN客户端) 插件地址:http://subclipse.tigris.org/update_1.8.x,3、安装IvyDE插件(下载依赖Jar) 插件地址:http://www.apache.org/dist/ant/ivyde/updatesite/4、签出代码 File > New > Project > SVN > 从SVN 检出项目 ...
在hadoop中有时候会需要一个组中的多个用户都能够有权限操作,比如nutch和hadoop的结合中,一个nutch用户负责爬取,hadoop用户负责维护文件系统,那这时这2个用户都要有权限来操作hadoop的文件系统了,可以如下方法:
方法一:
bin/hadoop fs -chmod -R 774 /user
将改变/user下面的所有文件为同组用户读写执行
方法二:
修改hdfs-site.xml
<property>
<name>dfs.permissions</name>
<value>false</value> ...