nutch 发布时要注意的问题

博客分类：

java
search
nutch

在利用Ｎutch自身的ant打包后，如果对整个项目不太清楚结构，往往出现很多奇怪的问题。这里就是遇到了。。。＊打job后，留在该项目中进行测试时，出现： org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org ...

2011-12-04 23:40
浏览 1859
评论(0)
分类:开源软件

nutch 中的trie tree 算法简介

博客分类：

algorithms
nutch

todoo

2011-11-18 14:18
浏览 945
评论(0)
分类:行业应用

下面来分析一下，conf目录下各文件的作用是怎样的： crawl-urlfiter.txt ：此文件名在crawl-tool.xml中配置，属于crawl命令专有的配置，即分布式抓取时不起作用。 regex-urlfilter.xml ：此文件在分布式抓取时将代替crawl-filter.txt，see nutch-defulat.xml --上述解析类见RegexURLFilter-- 其中加载顺序为： nutch-default.xml->crawl-tool.xml->nutch-site.xml automaton-urlfilter.txt：有限状态 ...

2011-11-17 16:58
浏览 2169
评论(0)
分类:开源软件

nosql 大比拼

博客分类：

nosql

转发： Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Membase vs Neo4j comparison

2011-10-19 11:14
浏览 770
评论(0)
分类:数据库

去年的预言多少有些兑现

博客分类：

free talking

2010年初时曾经说过，今后的十年必将是智能化时代。瞧，现在的智能手机，iPhone 4s等已经逐步融入语音识别功能了。不过，我看来，现在的智能机还有相当大的改进空间，go and see!

2011-10-19 00:18
浏览 702
评论(0)
分类:非技术

nutch 分布式索引（爬虫)

博客分类：

java
nutch
search

其实，全网抓取比intranet区别再于，前者提供了较为多的urls入口，没有使用crawl-urlfilter.txt 中并没有限制哪些url ，(如果没有使用crawl命令）并通过逐步处理的方式得以可按的局面；在1.3，还有此区别，如默认的fetcher.parse是false，使得每次fetch后必须有一个parse step，刚开始老是看不懂为什么tutorial中这样做。。其次是，此版本不再有crawl-urlfiter.txt，而是用regex-urlfilter.txt替换。在recrawl时的区别见nutch ...

2011-10-19 00:15
浏览 3848
评论(0)
分类:开源软件

nutch 分布式搜索-cluster-hdfs index

博客分类：

nutch
java
search

此过程也很简单，步骤是： a.put the indexes to hdfs respectively; b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively; c.retrieve the path of index in hdfs,then use them start the search server one by each; d.start web container note: ...

2011-10-17 02:14
浏览 1369
评论(0)
分类:开源软件

nutch 分布式搜索-cluster-local index

博客分类：

nutch
java
search

此过程亦相当简单，只是修改一下search-servers.txt即可。 see standalone mode

2011-10-17 02:13
浏览 782
评论(0)
分类:开源软件

nutch 分布式搜索-standalone mode

博客分类：

java
nutch
search

本地模式篇，其实就是相当于之前图中的虚线部分。詳細如下图：安装步骤: 1.search client that acts as a web container to make requests. 2.search servers which supply services to feed ./bin/nutch server <port> <path/to/crawl> * search-servers.txt is the file that marks as a distributed search action. * ...

2011-10-17 01:47
浏览 970
评论(0)
分类:开源软件

lucene boost 的誤解

博客分类：

java
lucene

之前一直以为，无论在index或搜索时，如果boost为0，結果将不会得出。但今天经过测试，不是这样的。来看它的评分公式吧，其中一项就是 queryNorm(q) ，它是这样计算的： 1／sumOfSquaredWeights½ 但这样可能遇到分母为0的情况，于是在Query中的weight()中作了修正：如果是infinite则为1. 不过，由此我又想到了是否出现异常的情况，发现，如果是1／0这种情况是会有异常的；但如果是float或double不会出现异常，只是返回Infinity 。不过，造成评分結果为0 的原因并不是上述的fatcor ...

2011-10-06 16:56
浏览 1055
评论(0)
分类:开源软件

nutch对某个contentType文档进行解析的流程--html

博客分类：

java
search
nutch

经过上一遍contentType流程介绍后，现在进入具体的针对html文档的解析过程介绍。在ParseUtil#getParse()中，当选定一种parser( 这里是HtmlParser)后，便进入到对应的getParse方法中。大概步骤是： 1.猜测页面的最佳编码； 2.解析页面中特定的meta，如robots,base等元数据； 3.检查是否可以index或follow(fetch outlinks) 4.处理redir问题； 5.调用html pares filters进行对html的进一步过滤。注意这个步骤是不太重要的，而且针对这个默认只有p ...

2011-09-22 23:44
浏览 992
评论(0)
分类:开源软件

nutch对某个contentType文档进行解析的流程

博客分类：

nutch
java

nutch支持对诸多的文档类型作了解析处理，包括html,xml,zip,pdf等，其中好像从1.1以后提供了tika的进一步封装处理。 1.说明在fetch的output()时会发现，它调用了ParseUtil的parse()进行处理。 nutch执行解析时有个优先级原则，即parse-pl ...

2011-09-04 12:48
浏览 1673
评论(0)
分类:开源软件

nutch 处理robots.txt原理

博客分类：

nutch
search

形如大多SE一样，在bot搜寻过程中会检查网站robots.txt 文件，以便是否设置了针对自己的rules。一.robots.txt常识由于robots.txt是一个协议而不是规范，所以不同的ＳＥ会有自己的实际处理规则。nutch也一样。看看它是怎样书写 ...

2011-08-28 16:42
浏览 1711
评论(0)
分类:开源软件

chord系统学习-super-peer based

博客分类：

distributed tech

todo

2011-08-04 00:09
浏览 793
评论(0)
分类:企业架构

nutch analyzers 使用机制

博客分类：

search
java
nutch

一。索引时analyzer 我们知道，在Indexer进行index时，是利用IndexOutputFormat进行rewrite的，其中write filters有一个：LuceneWriter。它是这样处理的：＊如果crawl过程index filters有添加lang field，那么在此时是依据此它进行retrieve plugin related NutchAnalyzer；否则＊使用default NutchDocumentAnalyzer。默认地，它使用了ContentAanlzyer and AnchorAnalyzer，但这两个都是不理想的，所以本来是需要改造 ...

2011-07-31 14:35
浏览 823
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 发布时要注意的问题

nutch 中的trie tree 算法简介

nutch 配置文件详解

nosql 大比拼

去年的预言多少有些兑现

nutch 分布式索引（爬虫)

nutch 分布式搜索-cluster-hdfs index

nutch 分布式搜索-cluster-local index

nutch 分布式搜索-standalone mode

lucene boost 的誤解

nutch对某个contentType文档进行解析的流程--html

nutch对某个contentType文档进行解析的流程

nutch 处理robots.txt原理

chord系统学习-super-peer based

nutch analyzers 使用机制

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>