- 浏览: 170534 次
- 性别:
- 来自: 北京
最新评论
-
小桔子:
u 棒棒哒!按照你的搞定了,之前搞了好久!u 棒棒哒!!! ...
Ubuntu为Tomcat启用80端口 -
u011938035:
我用的是nutch1.7,org.apache.nutch.n ...
nutch1.4 URLNormalizers 详解 -
peigang:
试试跟踪一下脚本,应该是环境变量的问题。
nutch1.4:爬虫定时抓取设置 -
zhangmj10:
你好,看这帖子是好久以前的,不知道你能不能看到。不知道能不能帮 ...
nutch1.4:爬虫定时抓取设置 -
shinide1989:
楼主你好,我正需要修改html的解析,并想把结果存为其他格 ...
nutch1.4插件开发
文章列表
在Linux下要定时执行任务,可以有两种方法实现:at命令和crontab。如果我们只是想要让特定任务运行一次,则可以使用at监控程序;如果是无人作业的情况,那么可以使用cron服务。
本文介绍在Linux下的两种定时执行任 ...
nutch1.4 开发:增加外部jar包
- 博客分类:
- nutch
ntuch1.4开发中可能会涉及到引入外部jar包的情况,比如数据库访问代码需要hibernate3.jar。这种情况只需要在ntuch/lib中拷贝hibernate3.jar,此时ant编译时就会自动引入hibernate3.jar文件。然后再classpath中引入hibernate3.jar,业务代码开发中也可以正常引用相关文件了。
1、inject中以读取文件的方式传入自定义参数:
datum.getMetaData().put(KEY, VALUE);
将文件中读取的参数加入。
2、fetch中 传递参数:
1、run方法中由QueueFeeder爬取队列维护爬取列表。
2、根据自定义的线程数量启动FetcherThread线程。
3、FetcherThread从队列中以原子方式获取爬取地址,爬取该地址网页内容并进行解析。解析过程由output()方法封装,该方法中传递参数依靠content来实现,如:
content.getMetadata().set(KEY, datum.getMe ...
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。
nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环 ...
org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。
map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。
巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中
ParseOutputFormat
对象将reduce返回的Parse对象解析分别存储,理解了这个地方在随后的index中读取数据的方式就很容易理解了。
nutch1.4 Injector 详解
- 博客分类:
- nutch
org.apache.nutch.crawl.InjectorURL注入器对象,nutch抓取入口。
代码如下:
/**
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licens ...
org.apache.nutch.scoring.ScoringFilter实现类如下:
//空方法
org.apache.nutch.scoring.link.LinkAnalysisScoringFilter
.injectedScore(Text url, CrawlDatum datum)
//空方法
org.apache.nutch.scoring.opic.OPICScoringFilter
.injectedScore(Text url, CrawlDatum datum)
//空方法
org.apache.nutch.scoring.tld.TLDSc ...
nutch1.4 URLFilter详解
- 博客分类:
- nutch
org.apache.nutch.net.URLFilter接口有如下实现类:
1、//匹配suffix, domain, host
org.apache.nutch.urlfilter.domain.DomainURLFilter
2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。
org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter
3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.f ...
org.apache.nutch.net.URLNormalizers
url过滤封装类,过滤器有3个实现类分别是:
//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
//空方法,不执行任何解析,直接返回url,注:应该是预留接口
org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
//根据配置文件regex-urlfilter.txt中的网站爬取规则过 ...
nutch1.4 crawl详解
- 博客分类:
- nutch
/**
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You under the Apache License, Version 2. ...
从以下地址下载eclipse,http://www.eclipse.org/downloads/
启动后选择功能Help--Install new Software 选择下载即可,详细步骤参考
http://ant.apache.org/ivy/ivyde/download.cgi
Eclipse开发nutch环境搭建
- 博客分类:
- nutch
本文参考了:http://www.douban.com/note/193721760/ 博文(在此感谢博主),该文中提到的参考文章地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开(原因你懂的)我想办法打开了,参考个文章后将自己的配置过程记录下来,以供大家使用。
一、软件环境:
1、操作系统WindowsSp3
2、http://www.eclipse.org/downloads/ (MyEclipse安装Ivy存在问题,具体情况不明, ...
http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240下载SVN插件:site-1.6.10.zip解压后将其全部文件拷贝至:D:\Program Files\Genuitec\MyEclipse 8.5\dropins(MyEclipse的安装目录)重启MyEclipse即可出现SVN!
solr3.5 高亮显示
- 博客分类:
- solr
在全文检索的应用中必然要涉及到高亮显示,sorl对高亮进行封装,高亮的实现方式如下:
1:solrconfig.xml配置
<formatter name="html"
default="true"
class="solr.highlight.HtmlFormatter">
<lst name="defaults">
<str name="hl.simple.pre"><![CDATA[<font class='highlight ...
solr3.5 查询排序
- 博客分类:
- solr
使全文检索查询数据经常要涉及到排序和条件查询,下面简单介绍常用的排序和查询方式。
SolrServer solr = SolrUtil.getSolrServer();
//获取查询对象
SolrQuery query = new SolrQuery();
//设置查询关键字
query.setQuery("content:程序员");
//设置查询返回的字段
query.setParam("fl", "createdAt,content");
//翻页设计参数:起始行,每行返回条数
que ...