`
文章列表
在利用Nutch自身的ant打包后,如果对整个项目不太清楚结构,往往出现很多奇怪的问题。这里就是遇到了。。。   *打job后,留在该项目中进行测试时,出现: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org ...
todoo
下面来分析 一下,conf目录下各文件的作用是怎样的: crawl-urlfiter.txt :此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。 regex-urlfilter.xml :此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml --上述解析类见RegexURLFilter-- 其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml   automaton-urlfilter.txt:有限状态 ...

nosql 大比拼

转发: Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Membase vs Neo4j comparison
2010年初时曾经说过,今后的十年必将是智能化时代。瞧,现在的智能手机,iPhone 4s等已经逐步融入语音识别功能了。不过,我看来,现在的智能机还有相当大的改进空间,go and see!
其实,全网抓取比intranet区别再于,   前者提供了较为多的urls入口,   没有使用crawl-urlfilter.txt 中并没有限制哪些url ,(如果没有使用crawl命令)   并通过逐步处理的方式得以可按的局面;   在1.3,还有此区别,   如默认的fetcher.parse是false,使得每次fetch后必须有一个parse step,刚开始老是看不懂为什么tutorial中这样做。。   其次是,此版本不再有crawl-urlfiter.txt,而是用regex-urlfilter.txt替换。   在recrawl时的区别见nutch ...
此过程也很简单,步骤是: a.put the indexes to hdfs respectively; b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively; c.retrieve the path of index in hdfs,then use them start the search server one by each; d.start web container   note: ...
此过程亦相当简单,只是修改一下search-servers.txt即可。   see standalone mode
  本地模式篇,其实就是相当 于之前图中的虚线部分。詳細如下图:     安装步骤: 1.search client that acts as a web container to make requests. 2.search servers which supply services to feed   ./bin/nutch server <port> <path/to/crawl>   * search-servers.txt is the file that marks as a distributed search action. * ...
之前一直以为,无论在index或搜索时,如果boost为0,結果将不会得出。但今天经过测试,不是这样的。 来看它的评分公式吧,其中一项就是 queryNorm(q) ,它是这样计算的:  1/sumOfSquaredWeights½  但这样可能遇到分母为0的情况,于是在Query中的weight()中作了修正 :如果是infinite则为1.  不过,由此我又想到了是否出现异常的情况,发现,如果是1/0这种情况是会有异常的;但如果是float或double不会出现异常,只是返回Infinity 。   不过,造成评分結果为0 的原因 并不是上述 的fatcor ...
经过上一遍contentType流程 介绍后,现在进入具体的针对html文档的解析过程介绍。   在ParseUtil#getParse()中,  当选定一种parser(  这里是HtmlParser)后,便 进入到对应 的getParse方法中。 大概步骤是: 1.猜测页面的最佳编码; 2.解析页面中特定的meta,如robots,base等元数据; 3.检查是否可以index或follow(fetch outlinks) 4.处理redir问题; 5.调用html pares filters进行对html的进一步过滤 。注意这个步骤是不太重要的,而且针对这个默认只有p ...
nutch支持对诸多的文档类型作了解析处理,包括html,xml,zip,pdf等,其中好像从1.1以后提供了tika的进一步封装处理。   1.说明 在fetch的output()时会发现,它调用了ParseUtil的parse()进行处理。 nutch执行解析时有个优先级原则,即parse-pl ...
形如大多SE一样,在bot搜寻过程中会检查网站robots.txt 文件,以便是否设置了针对自己的rules。   一.robots.txt常识 由于robots.txt是一个协议而不是规范,所以不同的SE会有自己的实际处理规则。nutch也一样。 看看它是怎样书写 ...
todo
  一。索引时analyzer 我们知道,在Indexer进行index时,是利用IndexOutputFormat进行rewrite的,其中write filters有一个:LuceneWriter。它是这样处理的: *如果crawl过程index filters有添加lang field,那么在此时是依据此它进行retrieve  plugin related NutchAnalyzer;否则 *使用default NutchDocumentAnalyzer。默认地,它使用了ContentAanlzyer and AnchorAnalyzer,但这两个都是不理想的,所以本来是需要改造 ...
Global site tag (gtag.js) - Google Analytics