论坛首页 入门技术论坛

JAVA 爬虫 WebCrawler Spider Bot

浏览 5129 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-05-13   最后修改:2009-05-17

我有一个通用的爬虫(UI)。可定制(服务搭建暂不提供)。

 

地址:http://www.box.net/shared/c9gub1hk8e

 

抓取说明书:http://www.box.net/shared/horu7hybcq

 

如有搭建服务器的,我可以配合。

 

需要jdk 1.6

 

感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文的路径下。以免影响正常使用。

 

 

 

爬虫主界面

   发表时间:2009-05-16   最后修改:2009-05-16

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:

  • 大小: 14 KB
0 请登录后投票
   发表时间:2009-05-16   最后修改:2009-05-16
wangchao_0625 写道

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:




如果出错,请看.log文件,还有你把conf目录下对应的xml配置文件传上来。我看一下。

附件中是我的xml配置文件,你把他放到conf目录下,在测试一下,记得修改“保存方式”。
0 请登录后投票
   发表时间:2009-05-16  
你还是看这个例子吧

http://anson2003.iteye.com/blog/388886

附件中都有配置文件。

不用你去配置了。你可以再配置一遍
0 请登录后投票
   发表时间:2009-05-17   最后修改:2009-05-17

感谢楼主的耐心 ,


但我还是没有弄成功,

起初,我怀疑可能与我的运行环境有关,

 

我查看了一下java的环境配置,发现java和javac命令都能跑得过去,

后来,我又去找日志,发现日志为空。

这里是我对“安居客”的配置xml

 

 

0 请登录后投票
   发表时间:2009-05-17  
你的XML我测试了。没有问题。

我的测试环境

java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Client VM (build 11.3-b02, mixed mode, sharing)

你如果出现时有时无的情况,在测试之前先按一下测试UI里的"缓存按钮"

至于你的报错是什么信息能详细告我吗? 在哪里报错?
在测试  显示信息里吗 ? 
0 请登录后投票
   发表时间:2009-05-17   最后修改:2009-05-17
我页上个视屏给你吧:
你看看我的操作步骤有没有什么不对的
0 请登录后投票
   发表时间:2009-05-17  
感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文目录下路径下。以免影响正常使用。
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics