`
peigang
  • 浏览: 170534 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
     在Linux下要定时执行任务,可以有两种方法实现:at命令和crontab。如果我们只是想要让特定任务运行一次,则可以使用at监控程序;如果是无人作业的情况,那么可以使用cron服务。      本文介绍在Linux下的两种定时执行任 ...
ntuch1.4开发中可能会涉及到引入外部jar包的情况,比如数据库访问代码需要hibernate3.jar。这种情况只需要在ntuch/lib中拷贝hibernate3.jar,此时ant编译时就会自动引入hibernate3.jar文件。然后再classpath中引入hibernate3.jar,业务代码开发中也可以正常引用相关文件了。
1、inject中以读取文件的方式传入自定义参数:   datum.getMetaData().put(KEY, VALUE);    将文件中读取的参数加入。 2、fetch中 传递参数: 1、run方法中由QueueFeeder爬取队列维护爬取列表。 2、根据自定义的线程数量启动FetcherThread线程。 3、FetcherThread从队列中以原子方式获取爬取地址,爬取该地址网页内容并进行解析。解析过程由output()方法封装,该方法中传递参数依靠content来实现,如:   content.getMetadata().set(KEY, datum.getMe ...

nutch1.4插件开发

 
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。   nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环 ...
org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。   map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。 巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中 ParseOutputFormat 对象将reduce返回的Parse对象解析分别存储,理解了这个地方在随后的index中读取数据的方式就很容易理解了。  
org.apache.nutch.crawl.InjectorURL注入器对象,nutch抓取入口。 代码如下:   /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licens ...
org.apache.nutch.scoring.ScoringFilter实现类如下:     //空方法 org.apache.nutch.scoring.link.LinkAnalysisScoringFilter .injectedScore(Text url, CrawlDatum datum) //空方法 org.apache.nutch.scoring.opic.OPICScoringFilter .injectedScore(Text url, CrawlDatum datum) //空方法 org.apache.nutch.scoring.tld.TLDSc ...
org.apache.nutch.net.URLFilter接口有如下实现类:     1、//匹配suffix, domain, host org.apache.nutch.urlfilter.domain.DomainURLFilter 2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。 org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter 3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.f ...
  org.apache.nutch.net.URLNormalizers   url过滤封装类,过滤器有3个实现类分别是:   //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。 org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer //空方法,不执行任何解析,直接返回url,注:应该是预留接口 org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer //根据配置文件regex-urlfilter.txt中的网站爬取规则过 ...

nutch1.4 crawl详解

  /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You under the Apache License, Version 2. ...
从以下地址下载eclipse,http://www.eclipse.org/downloads/ 启动后选择功能Help--Install new Software 选择下载即可,详细步骤参考 http://ant.apache.org/ivy/ivyde/download.cgi
本文参考了:http://www.douban.com/note/193721760/ 博文(在此感谢博主),该文中提到的参考文章地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开(原因你懂的)我想办法打开了,参考个文章后将自己的配置过程记录下来,以供大家使用。 一、软件环境:   1、操作系统WindowsSp3 2、http://www.eclipse.org/downloads/ (MyEclipse安装Ivy存在问题,具体情况不明, ...
http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240下载SVN插件:site-1.6.10.zip解压后将其全部文件拷贝至:D:\Program Files\Genuitec\MyEclipse 8.5\dropins(MyEclipse的安装目录)重启MyEclipse即可出现SVN!

solr3.5 高亮显示

    博客分类:
  • solr
在全文检索的应用中必然要涉及到高亮显示,sorl对高亮进行封装,高亮的实现方式如下: 1:solrconfig.xml配置   <formatter name="html" default="true" class="solr.highlight.HtmlFormatter"> <lst name="defaults"> <str name="hl.simple.pre"><![CDATA[<font class='highlight ...

solr3.5 查询排序

    博客分类:
  • solr
使全文检索查询数据经常要涉及到排序和条件查询,下面简单介绍常用的排序和查询方式。   SolrServer solr = SolrUtil.getSolrServer(); //获取查询对象 SolrQuery query = new SolrQuery(); //设置查询关键字 query.setQuery("content:程序员"); //设置查询返回的字段 query.setParam("fl", "createdAt,content"); //翻页设计参数:起始行,每行返回条数 que ...
Global site tag (gtag.js) - Google Analytics