- 浏览: 120949 次
- 性别:
- 来自: 北京
最新评论
-
qq4628241:
按位“异或”运算符 (^) 将第一操作数的每个位与第二操作数的 ...
JAVA 位运算符和位移运算符 -
kehui:
^(异或) 运算规则:1^0=0 0^1=1 1 ...
JAVA 位运算符和位移运算符 -
andyxuq:
楼主能传我一份 jrex的相关jar包么 andyxuq@gm ...
爬虫 js,flash,ajax网页(JREX) -
mikey_java:
感谢楼主的详解,受益匪浅,谢谢
JAVA 位运算符和位移运算符 -
youzhibing:
运行出现了以下错误:
Exception in thread ...
eclipse部署配置nutch1.3
文章列表
heritrix抓取下来的东西,其实就和下载器下载下来一样。
我们必须用自己的方法去抽取出一些有用的信息
恩,以前一直用htmlparser提取,虽然简便易用。可是维护起来是一个大麻烦而且编写程序的成本很高!等等!!!
现在做这个采用了新的思路, html——>XML or XHTML(整个HTML转为XML) --> XSLT提取——>最终XML(需要的最终数据的XML)
这个要做的就是转换,工具很多目前我用的是 jtidy,可以很方便简洁的把HTML转为XHTML或者XML,然后在学习一下XSLT来配置模板提取。
这样一来,代码简洁维护起来简便。如果开发一个界面XML提取 ...
heritrix 多个job合并的方案
- 博客分类:
- heritrix
heritrix job太多,却想要合并怎么办?
很简单
1.合并seeds文件,把多个job的seed拷到一起
2.合并Scheduler里面的正则
3.合并recover.gz
4.合并mirror里面下载下来的文件
关于recover.gz,可以调用heritrix自带的工具类RecoveryJournal
采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI
第一个问题只要改一下order.xml
下面几个值这样设置
<string name="recover-path"></string> recover.gz的绝对路径
<boolean name="checkpoint-co ...
抓取的时候死机或者意外停止时很正常的事情
不过遇到这类问题不用担心,heritrix提供了一个方法,就是Based on a recovery
这个就是在原有的基础上继续抓取,可是他又一个缺点
就是每次抓取都是一个新的job统计起来确实很麻烦!!
原理大家也都知道,heirtrix把所有获取的链接都放入recover.gz这个文件,里面存储了不同的格式
"F+ 进入调度器里的URL,还待处理。如果恢复的话,会重新将该URL放入调度器
"Fd "
"Fe "从BDB数据库里排放URI,然后用于去抓取
"Ff " 失败了的ur ...
我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少?
或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的?
下面我们一点点来解决!
下载到的链接太少 其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少
个人建议用BroadScope
可是如果用了broadscope的话,下载到的东西又太多,因为他没有做任何限制!好多东西都不是我们想要的,比如js,css,jpg等等
我们需要扩展它的接口Extractor或者Scheduler
不过拓展这个接口是个很麻烦的问题,her ...
1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java
public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {
private static final Logger logger = Logger
.getLogger(ELFHashQueueAssignmentPolicy.class.getName());
private static String DEFAULT_CLASS_KEY = "de ...
如果需要定制,就需要在eclipse下面安装运行。安装步骤:
一、需求文件
heritrix-1.41.3-src.zip
heritrix-1.14.3.zip
在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载
二、准备
把下载的两个文件分别解压到不同的目录中
三、在eclipse中新建一个java appliction
分别把heritrix-1.14.3.zip的解压文件中的conf,webapps,lib文件夹拷到工程中
...