wangwei3

浏览: 120949 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

heritrix抓取下来的东西，其实就和下载器下载下来一样。我们必须用自己的方法去抽取出一些有用的信息恩，以前一直用htmlparser提取，虽然简便易用。可是维护起来是一个大麻烦而且编写程序的成本很高！等等！！！现在做这个采用了新的思路， html——>XML or XHTML(整个HTML转为XML) --> XSLT提取——>最终XML(需要的最终数据的XML) 这个要做的就是转换，工具很多目前我用的是 jtidy，可以很方便简洁的把HTML转为XHTML或者XML，然后在学习一下XSLT来配置模板提取。这样一来，代码简洁维护起来简便。如果开发一个界面XML提取 ...

2010-04-09 11:07
浏览 1229
评论(2)
分类:互联网

heritrix 多个job合并的方案

博客分类：

heritrix

heritrix job太多，却想要合并怎么办？很简单 1.合并seeds文件，把多个job的seed拷到一起 2.合并Scheduler里面的正则 3.合并recover.gz 4.合并mirror里面下载下来的文件关于recover.gz，可以调用heritrix自带的工具类RecoveryJournal

2010-04-02 11:34
浏览 1135
评论(0)
分类:互联网

继续抓取的一些问题及解决方案

博客分类：

heritrix

UI XML

采用哪个继续抓取会遇到一些小问题， 1.recover.gz在每次启动的时候会删除原有的，然后重建。丢失以前所存储的链接！ 2.每次启动的时候，会丢失很多页面，因为heritrix抓取过的页面是不会在抓取，这样的话也不会在解析，比如报价这类页面，那我们就无法更新了！ 3.如何启动heritrix的UI 第一个问题只要改一下order.xml 下面几个值这样设置 <string name="recover-path"></string> recover.gz的绝对路径 <boolean name="checkpoint-co ...

2010-04-02 11:31
浏览 1011
评论(1)
分类:互联网

heritrix在原有基础上抓取

博客分类：

heritrix

多线程 XML thread F#

抓取的时候死机或者意外停止时很正常的事情不过遇到这类问题不用担心,heritrix提供了一个方法，就是Based on a recovery 这个就是在原有的基础上继续抓取，可是他又一个缺点就是每次抓取都是一个新的job统计起来确实很麻烦！！原理大家也都知道，heirtrix把所有获取的链接都放入recover.gz这个文件，里面存储了不同的格式 "F+ 进入调度器里的URL，还待处理。如果恢复的话，会重新将该URL放入调度器 "Fd " "Fe "从BDB数据库里排放URI，然后用于去抓取 "Ff " 失败了的ur ...

2010-04-02 11:23
浏览 1465
评论(6)
分类:互联网

job配置经验分享

博客分类：

heritrix

CSS

我们常常会遇到一个问题，就是明明别人网站链接这么多，为什么我们抓取到的却这么少？或者说抓取速度如此蜗牛？下载到的链接都不是我们想要的？下面我们一点点来解决！下载到的链接太少其实是域限制太窄，比如限制在DecidingScope这样的话，如果入口散列在其他的二级域名的话，我们就无法抽取到这个链接，导致我们下载到的东西太少个人建议用BroadScope 可是如果用了broadscope的话，下载到的东西又太多，因为他没有做任何限制！好多东西都不是我们想要的，比如js,css,jpg等等我们需要扩展它的接口Extractor或者Scheduler 不过拓展这个接口是个很麻烦的问题，her ...

2010-04-02 10:59
浏览 1070
评论(0)
分类:编程语言

elfhash多线程抓取

博客分类：

heritrix

多线程 Scheme

1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy { private static final Logger logger = Logger .getLogger(ELFHashQueueAssignmentPolicy.class.getName()); private static String DEFAULT_CLASS_KEY = "de ...

2010-04-02 10:49
浏览 1824
评论(2)
分类:编程语言

heritrix入门及配置

博客分类：

heritrix

Eclipse PHP .net 工作

如果需要定制，就需要在eclipse下面安装运行。安装步骤：一、需求文件 heritrix-1.41.3-src.zip heritrix-1.14.3.zip 在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载二、准备把下载的两个文件分别解压到不同的目录中三、在eclipse中新建一个java appliction 分别把heritrix-1.14.3.zip的解压文件中的conf,webapps,lib文件夹拷到工程中 ...

2010-04-02 10:44
浏览 1749
评论(0)
分类:编程语言

« 上一页 1 2 3 4 5 下一页 »

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

模板抽取思路

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

模板抽取思路

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>