Linux定时执行任务命令：at和crontab(转)

博客分类：

OS

在Linux下要定时执行任务，可以有两种方法实现：at命令和crontab。如果我们只是想要让特定任务运行一次，则可以使用at监控程序；如果是无人作业的情况，那么可以使用cron服务。本文介绍在Linux下的两种定时执行任 ...

2012-06-13 14:08
浏览 1435
评论(0)
分类:操作系统

nutch1.4 开发：增加外部jar包

博客分类：

nutch

ntuch1.4开发中可能会涉及到引入外部jar包的情况，比如数据库访问代码需要hibernate3.jar。这种情况只需要在ntuch/lib中拷贝hibernate3.jar，此时ant编译时就会自动引入hibernate3.jar文件。然后再classpath中引入hibernate3.jar，业务代码开发中也可以正常引用相关文件了。

2012-06-11 14:48
浏览 1573
评论(0)
分类:开源软件

1、inject中以读取文件的方式传入自定义参数： datum.getMetaData().put(KEY, VALUE); 将文件中读取的参数加入。 2、fetch中传递参数： 1、run方法中由QueueFeeder爬取队列维护爬取列表。 2、根据自定义的线程数量启动FetcherThread线程。 3、FetcherThread从队列中以原子方式获取爬取地址，爬取该地址网页内容并进行解析。解析过程由output()方法封装，该方法中传递参数依靠content来实现，如： content.getMetadata().set(KEY, datum.getMe ...

2012-06-02 11:51
浏览 1819
评论(0)
分类:开源软件

nutch1.4插件开发

博客分类：

nutch

参考了不少nutch插件开发的文章都不完整，经过多次调试研究才成功，下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环� ...

2012-04-13 17:02
浏览 2882
评论(1)
分类:开源软件

nutch1.4 解析器 ParseSegment详解

博客分类：

nutch

org.apache.nutch.parse.ParseSegment 解析数据段，快速理解开发使用nutch的重要类。 map函数实现比较简单，读取Content类并解析。reduce也只是简单的将map计算完毕的返回。巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中 ParseOutputFormat 对象将reduce返回的Parse对象解析分别存储，理解了这个地方在随后的index中读取数据的方式就很容易理解了。

2012-04-11 15:17
浏览 1234
评论(0)
分类:开源软件

nutch1.4 Injector 详解

博客分类：

nutch

org.apache.nutch.crawl.InjectorURL注入器对象，nutch抓取入口。代码如下： /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licens ...

2012-03-29 18:04
浏览 1149
评论(0)
分类:开源软件

nutch1.4 ScoringFilter详解

博客分类：

nutch

org.apache.nutch.scoring.ScoringFilter实现类如下: //空方法 org.apache.nutch.scoring.link.LinkAnalysisScoringFilter .injectedScore(Text url, CrawlDatum datum) //空方法 org.apache.nutch.scoring.opic.OPICScoringFilter .injectedScore(Text url, CrawlDatum datum) //空方法 org.apache.nutch.scoring.tld.TLDSc ...

2012-03-29 17:39
浏览 1184
评论(0)
分类:开源软件

nutch1.4 URLFilter详解

博客分类：

nutch

org.apache.nutch.net.URLFilter接口有如下实现类： 1、//匹配suffix, domain, host org.apache.nutch.urlfilter.domain.DomainURLFilter 2、//程序代码结构实现同相同，不知道为什么一模一样，没仔细琢磨。 org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter 3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.f ...

2012-03-29 17:16
浏览 1652
评论(0)
分类:开源软件

nutch1.4 URLNormalizers 详解

博客分类：

nutch

org.apache.nutch.net.URLNormalizers url过滤封装类，过滤器有3个实现类分别是： //格式化url将url字符小写转换一次，Perl5正则解析URL FILE。 org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer //空方法，不执行任何解析，直接返回url，注：应该是预留接口 org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer //根据配置文件regex-urlfilter.txt中的网站爬取规则过 ...

2012-03-29 15:56
浏览 1703
评论(1)
分类:开源软件

nutch1.4 crawl详解

博客分类：

nutch

/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this file to You under the Apache License, Version 2. ...

2012-03-29 11:16
浏览 1241
评论(0)
分类:开源软件

MyEclipse配置IvyDE

博客分类：

JAVA
nutch

从以下地址下载eclipse，http://www.eclipse.org/downloads/ 启动后选择功能Help--Install new Software 选择下载即可，详细步骤参考 http://ant.apache.org/ivy/ivyde/download.cgi

2012-03-28 14:16
浏览 2220
评论(0)
分类:开源软件

Eclipse开发nutch环境搭建

博客分类：

nutch

本文参考了：http://www.douban.com/note/193721760/ 博文（在此感谢博主），该文中提到的参考文章地址：http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开（原因你懂的）我想办法打开了，参考个文章后将自己的配置过程记录下来，以供大家使用。一、软件环境： 1、操作系统WindowsSp3 2、http://www.eclipse.org/downloads/ (MyEclipse安装Ivy存在问题，具体情况不明， ...

2012-03-27 20:13
浏览 5218
评论(0)
分类:开源软件

MyEclipse8.5快速配置SVN

http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240下载SVN插件：site-1.6.10.zip解压后将其全部文件拷贝至：D:\Program Files\Genuitec\MyEclipse 8.5\dropins（MyEclipse的安装目录）重启MyEclipse即可出现SVN！

2012-03-22 20:09
浏览 1041
评论(0)
分类:非技术

solr3.5 高亮显示

博客分类：

solr

在全文检索的应用中必然要涉及到高亮显示，sorl对高亮进行封装，高亮的实现方式如下： 1：solrconfig.xml配置 <formatter name="html" default="true" class="solr.highlight.HtmlFormatter"> <lst name="defaults"> <str name="hl.simple.pre"><![CDATA[<font class='highlight ...

2012-03-21 11:09
浏览 4585
评论(3)
分类:开源软件

solr3.5 查询排序

博客分类：

solr

使全文检索查询数据经常要涉及到排序和条件查询，下面简单介绍常用的排序和查询方式。 SolrServer solr = SolrUtil.getSolrServer(); //获取查询对象 SolrQuery query = new SolrQuery(); //设置查询关键字 query.setQuery("content:程序员"); //设置查询返回的字段 query.setParam("fl", "createdAt,content"); //翻页设计参数：起始行，每行返回条数 que ...

2012-03-19 16:36
浏览 5576
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Linux定时执行任务命令：at和crontab(转)

nutch1.4 开发：增加外部jar包

nutch1.4 爬虫父页面参数传递到子页面注意事项

nutch1.4插件开发

nutch1.4 解析器 ParseSegment详解

nutch1.4 Injector 详解

nutch1.4 ScoringFilter详解

nutch1.4 URLFilter详解

nutch1.4 URLNormalizers 详解

nutch1.4 crawl详解

MyEclipse配置IvyDE

Eclipse开发nutch环境搭建

MyEclipse8.5快速配置SVN

solr3.5 高亮显示

solr3.5 查询排序

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>