- 浏览: 283684 次
- 性别:
- 来自: 广州
最新评论
-
jpsb:
...
为什么需要分布式? -
leibnitz:
hi guy, this is used as develo ...
compile hadoop-2.5.x on OS X(macbook) -
string2020:
撸主真土豪,在苹果里面玩大数据.
compile hadoop-2.5.x on OS X(macbook) -
youngliu_liu:
怎样运行这个脚本啊??大牛,我刚进入搜索引擎行业,希望你能不吝 ...
nutch 数据增量更新 -
leibnitz:
also, there is a similar bug ...
2。hbase CRUD--Lease in hbase
文章列表
在利用Nutch自身的ant打包后,如果对整个项目不太清楚结构,往往出现很多奇怪的问题。这里就是遇到了。。。
*打job后,留在该项目中进行测试时,出现:
org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org ...
下面来分析 一下,conf目录下各文件的作用是怎样的:
crawl-urlfiter.txt
:此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。
regex-urlfilter.xml
:此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml
--上述解析类见RegexURLFilter--
其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml
automaton-urlfilter.txt:有限状态 ...
转发:
Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Membase vs Neo4j comparison
去年的预言多少有些兑现
- 博客分类:
- free talking
2010年初时曾经说过,今后的十年必将是智能化时代。瞧,现在的智能手机,iPhone 4s等已经逐步融入语音识别功能了。不过,我看来,现在的智能机还有相当大的改进空间,go and see!
其实,全网抓取比intranet区别再于,
前者提供了较为多的urls入口,
没有使用crawl-urlfilter.txt 中并没有限制哪些url
,(如果没有使用crawl命令)
并通过逐步处理的方式得以可按的局面;
在1.3,还有此区别,
如默认的fetcher.parse是false,使得每次fetch后必须有一个parse step,刚开始老是看不懂为什么tutorial中这样做。。
其次是,此版本不再有crawl-urlfiter.txt,而是用regex-urlfilter.txt替换。
在recrawl时的区别见nutch ...
此过程也很简单,步骤是:
a.put the indexes to hdfs respectively;
b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively;
c.retrieve the path of index in hdfs,then use them start the search server one by each;
d.start web container
note:
...
此过程亦相当简单,只是修改一下search-servers.txt即可。
see
standalone mode
本地模式篇,其实就是相当 于之前图中的虚线部分。詳細如下图:
安装步骤:
1.search client that acts as a web container to make requests.
2.search servers which supply services to feed
./bin/nutch server <port> <path/to/crawl>
* search-servers.txt is the file that marks as a distributed search action.
* ...
之前一直以为,无论在index或搜索时,如果boost为0,結果将不会得出。但今天经过测试,不是这样的。
来看它的评分公式吧,其中一项就是
queryNorm(q)
,它是这样计算的:
1/sumOfSquaredWeights½
但这样可能遇到分母为0的情况,于是在Query中的weight()中作了修正 :如果是infinite则为1.
不过,由此我又想到了是否出现异常的情况,发现,如果是1/0这种情况是会有异常的;但如果是float或double不会出现异常,只是返回Infinity 。
不过,造成评分結果为0 的原因 并不是上述 的fatcor ...
经过上一遍contentType流程
介绍后,现在进入具体的针对html文档的解析过程介绍。
在ParseUtil#getParse()中, 当选定一种parser( 这里是HtmlParser)后,便 进入到对应 的getParse方法中。
大概步骤是:
1.猜测页面的最佳编码;
2.解析页面中特定的meta,如robots,base等元数据;
3.检查是否可以index或follow(fetch outlinks)
4.处理redir问题;
5.调用html pares filters进行对html的进一步过滤
。注意这个步骤是不太重要的,而且针对这个默认只有p ...
nutch支持对诸多的文档类型作了解析处理,包括html,xml,zip,pdf等,其中好像从1.1以后提供了tika的进一步封装处理。
1.说明
在fetch的output()时会发现,它调用了ParseUtil的parse()进行处理。
nutch执行解析时有个优先级原则,即parse-pl ...
形如大多SE一样,在bot搜寻过程中会检查网站robots.txt
文件,以便是否设置了针对自己的rules。
一.robots.txt常识
由于robots.txt是一个协议而不是规范,所以不同的SE会有自己的实际处理规则。nutch也一样。
看看它是怎样书写 ...
一。索引时analyzer
我们知道,在Indexer进行index时,是利用IndexOutputFormat进行rewrite的,其中write filters有一个:LuceneWriter。它是这样处理的:
*如果crawl过程index filters有添加lang field,那么在此时是依据此它进行retrieve plugin related NutchAnalyzer;否则
*使用default NutchDocumentAnalyzer。默认地,它使用了ContentAanlzyer and AnchorAnalyzer,但这两个都是不理想的,所以本来是需要改造 ...