JAVA 爬虫 WebCrawler Spider Bot

anson2003

浏览: 95626 次
性别:
来自: 上海

最近访客更多访客>>

wang0123

dove19900520

shenyxhihi

zhushiliang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

WebCrawler

Java UI XML .net JDK

我有一个通用的爬虫(UI)。可定制(服务搭建暂不提供)。

地址:https://www.box.com/shared/c9gub1hk8e

抓取说明书:https://www.box.com/shared/horu7hybcq

如有搭建服务器的，我可以配合。

需要jdk 1.6

感谢wangchao_0625的热心测试，请把该爬虫放置在不包含中文的路径下。以免影响正常使用。

爬虫主界面

分享到：

抓取网站实例配置(一)

2009-05-13 07:36
浏览 3111
评论(7)
论坛回复 / 浏览 (7 / 5160)
分类:互联网
查看更多

7 楼 anson2003 2009-05-17

感谢wangchao_0625的热心测试，请把该爬虫放置在不包含中文目录下路径下。以免影响正常使用。

6 楼 wangchao_0625 2009-05-17

我页上个视屏给你吧:
你看看我的操作步骤有没有什么不对的

5 楼 anson2003 2009-05-17

你的XML我测试了。没有问题。

我的测试环境

java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Client VM (build 11.3-b02, mixed mode, sharing)

你如果出现时有时无的情况，在测试之前先按一下测试UI里的"缓存按钮"

至于你的报错是什么信息能详细告我吗？在哪里报错？
在测试显示信息里吗？

4 楼 wangchao_0625 2009-05-17

感谢楼主的耐心 <img src="/images/smiles/icon_biggrin.gif" alt="">,

 但我还是没有弄成功， 起初，我怀疑可能与我的运行环境有关，
 

我查看了一下java的环境配置，发现java和javac命令都能跑得过去， 后来，我又去找日志，发现日志为空。 这里是我对“安居客”的配置xml

3 楼 anson2003 2009-05-16

你还是看这个例子吧

http://anson2003.iteye.com/blog/388886

附件中都有配置文件。

不用你去配置了。你可以再配置一遍

2 楼 anson2003 2009-05-16

wangchao_0625 写道

我看了下，不过还是没有使用成功，
每次开始正则测试，一开始就没了回音，并没有像你的演示那样：
要不报错，要不立马有了结果
如下所示：

如果出错，请看.log文件,还有你把conf目录下对应的xml配置文件传上来。我看一下。

附件中是我的xml配置文件，你把他放到conf目录下，在测试一下，记得修改“保存方式”。

1 楼 wangchao_0625 2009-05-16

我看了下，不过还是没有使用成功，
每次开始正则测试，一开始就没了回音，并没有像你的演示那样：
要不报错，要不立马有了结果
如下所示：

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论