`
anson2003
  • 浏览: 95551 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

JAVA 爬虫 WebCrawler Spider Bot

阅读更多

我有一个通用的爬虫(UI)。可定制(服务搭建暂不提供)。

 

地址:https://www.box.com/shared/c9gub1hk8e

 

抓取说明书:https://www.box.com/shared/horu7hybcq

 

如有搭建服务器的,我可以配合。

 

需要jdk 1.6

 

感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文的路径下。以免影响正常使用。

 

 

 

爬虫主界面

分享到:
评论
7 楼 anson2003 2009-05-17  
感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文目录下路径下。以免影响正常使用。
6 楼 wangchao_0625 2009-05-17  
我页上个视屏给你吧:
你看看我的操作步骤有没有什么不对的
5 楼 anson2003 2009-05-17  
你的XML我测试了。没有问题。

我的测试环境

java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Client VM (build 11.3-b02, mixed mode, sharing)

你如果出现时有时无的情况,在测试之前先按一下测试UI里的"缓存按钮"

至于你的报错是什么信息能详细告我吗? 在哪里报错?
在测试  显示信息里吗 ? 
4 楼 wangchao_0625 2009-05-17  
<p><span style="font-size: small;"><span>感谢楼主的耐心 <img src="/images/smiles/icon_biggrin.gif" alt="">,</span></span></p>
<p><span style="font-size: small;"><span>
<p><br>但我还是没有弄成功, <br><br>起初,我怀疑可能与我的运行环境有关,</p>
<p> </p>
<span>
<p>我查看了一下java的环境配置,发现java和javac命令都能跑得过去, <br><br>后来,我又去找日志,发现日志为空。 <br><br>这里是我对“安居客”的配置xml</p>
</span></span>
<p> </p>
</span></p>
<p> </p>
3 楼 anson2003 2009-05-16  
你还是看这个例子吧

http://anson2003.iteye.com/blog/388886

附件中都有配置文件。

不用你去配置了。你可以再配置一遍
2 楼 anson2003 2009-05-16  
wangchao_0625 写道

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:




如果出错,请看.log文件,还有你把conf目录下对应的xml配置文件传上来。我看一下。

附件中是我的xml配置文件,你把他放到conf目录下,在测试一下,记得修改“保存方式”。
1 楼 wangchao_0625 2009-05-16  

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:

相关推荐

    WebCrawler

    WebCrawler是一个基于Java开发的爬虫框架,它主要用于网络数据的抓取和处理。作为一个高级的爬虫工具,WebCrawler具备了多种特性和功能,使得开发者能够更精细、定向地进行网络爬取任务。 1. **Java爬虫技术**: ...

    爬虫快速入门.pdf

    网络爬虫(Web Crawler),有时也称为网页蜘蛛(Spider)、网络机器人(Bot),在某些社区中更常见的称呼是网页追逐者。它是一种遵循特定规则,自动地在网络上抓取信息的程序或脚本。网络爬虫的作用主要是在互联网上...

    Beanbun-爬虫Beanbun-爬虫

    网络爬虫(Web Crawler),又称为网络蜘蛛(Spider)或机器人(Bot),是一种自动提取网页内容的程序或脚本,它按照一定的规则,自动地在互联网上抓取信息。网络爬虫的开发与应用广泛涉及到搜索引擎优化()、数据...

    php 向访客和爬虫显示不同的内容

    'Googlebot', // Google 爬虫 'Baiduspider', // 百度爬虫 'Yahoo! Slurp', // 雅虎爬虫 'YodaoBot', // 有道爬虫 'msnbot' // Bing爬虫 // 更多爬虫关键字 ); foreach ($spiders as $spider) { $spider ...

    爬取招聘网的职位信息

    BOT_NAME = 'job_crawler' SPIDER_MODULES = ['job_crawler.spiders'] NEWSPIDER_MODULE = 'job_crawler.spiders' ITEM_PIPELINES = {'job_crawler.pipelines.JobPipeline': 300} ``` 现在,启动爬虫: ```bash ...

    用Python程序抓取网页的HTML信息的一个小实例

    网络爬虫(Web Crawler),又称为网络蜘蛛(Spider)或网络机器人(Bot),它是一种按照一定规则自动抓取互联网信息的程序或脚本。Python语言因为其简洁易懂的语法和强大的第三方库支持,非常适合用来编写网络爬虫。...

    蜘蛛:强大的网络抓取框架水晶

    2. **网络抓取(Bot/Crawler)**:网络抓取是自动遍历互联网并收集信息的过程,通常用于数据挖掘、搜索引擎索引或网站分析。Arachnid作为网络爬虫框架,允许用户编写规则来指定如何导航网页,获取所需的数据,并处理...

    php实现判断访问来路是否为搜索引擎机器人的方法

    'sogou web spider' =&gt; 'sogou', 'sogou push spider' =&gt; 'sogou', 'sosospider' =&gt; 'soso', 'spider' =&gt; 'other', 'crawler' =&gt; 'other', ); // 将HTTP_USER_AGENT转换为小写,便于后续的字符串查找 $...

Global site tag (gtag.js) - Google Analytics