本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
学习hadoop,发现的问题
发现一些问题,陆续记录进来
1. 我对 MuiltFileInputFormat 的设计费解
为什么继承 FileInputFormat ?
getSplits 的逻辑不一致, 没有道理继承。
通过阅读代码,发现, TextFileInputFormat 本身可以支持文件夹:乱。
Hadoop源代码分析(一)
经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs ...
个人网站开张了,欢迎大家来瞧瞧
搞Hadoop和分布式计算也有段时间了,决定开个站把自己的心得写下来,和大家交流下...
考察了不少IDC,最后发现都差不多,好的虚拟主机支持htaccess的不多,支持htaccess的不是贵就是小IDC。
建站系统比较头疼,肯定没时间自己开发一套,何况php又不熟。国内的几个觉得功能太复杂,我又不是要搞门户网站..最后用了Mambo,发现因为htaccess的问题不好做sef,搜索引擎大概不 ...
怎么在hadoop作map/reduce时输出N种不同类型的value
BTW:再次感叹下没有机器, 3.4G的语料,单机处理了10来个小时, 真是郁闷~~ 要是有N台机器多好啊.
在很多时候,特别是处理大数据的时候,我们希望一道MapReduce过程就可以解决几个问题。这样可以避免再次读取数据。比如:在做文本聚类/分类的时候,mapper读取语料,进行分词后,要同时算出每个词条(term)的term frequency以及它的document frequency. ...
java相关技术资源列表
http://www.ibm.com/developerworks/cn/(IBM开发者写的大牛文章集合)。好多最新技术可以在这找到,深有体会!
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/in ...
在eclipse下编译运行nutch
1.
下载Nutch
并解压到某个目录下,建议在根目录下。
2.
修改
Nutch\conf
目录下的
nutch-site.xml
和crawl-urlfilter.txt
两个文件,具体的修改方法如下:
(1) nutch-site.xml:
在<configuration></configuration>中间插 ...
nutch的安装(转)
nutch作为开源代码,为热爱搜索引擎的开发人员们提供了很好的学习平台,0.8版本开始,采用了Hadoop作为自己的分布式文件系统,更是把nutch同其他开源搜索引擎的差距拉开。 ntuch提供了一个高效、开源、易操作的搜索引擎,内部有许多细微之处都是值得借鉴的,例如采用了hadoop的分布式文件系统,类似eclipse 的插件技术,apache的httpclient来访问网站,org.cybern ...