`
anson2003
  • 浏览: 95294 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

JAVA 爬虫 WebCrawler Spider Bot

阅读更多

我有一个通用的爬虫(UI)。可定制(服务搭建暂不提供)。

 

地址:https://www.box.com/shared/c9gub1hk8e

 

抓取说明书:https://www.box.com/shared/horu7hybcq

 

如有搭建服务器的,我可以配合。

 

需要jdk 1.6

 

感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文的路径下。以免影响正常使用。

 

 

 

爬虫主界面

分享到:
评论
7 楼 anson2003 2009-05-17  
感谢wangchao_0625的热心测试,请把该爬虫放置在不包含中文目录下路径下。以免影响正常使用。
6 楼 wangchao_0625 2009-05-17  
我页上个视屏给你吧:
你看看我的操作步骤有没有什么不对的
5 楼 anson2003 2009-05-17  
你的XML我测试了。没有问题。

我的测试环境

java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Client VM (build 11.3-b02, mixed mode, sharing)

你如果出现时有时无的情况,在测试之前先按一下测试UI里的"缓存按钮"

至于你的报错是什么信息能详细告我吗? 在哪里报错?
在测试  显示信息里吗 ? 
4 楼 wangchao_0625 2009-05-17  
<p><span style="font-size: small;"><span>感谢楼主的耐心 <img src="/images/smiles/icon_biggrin.gif" alt="">,</span></span></p>
<p><span style="font-size: small;"><span>
<p><br>但我还是没有弄成功, <br><br>起初,我怀疑可能与我的运行环境有关,</p>
<p> </p>
<span>
<p>我查看了一下java的环境配置,发现java和javac命令都能跑得过去, <br><br>后来,我又去找日志,发现日志为空。 <br><br>这里是我对“安居客”的配置xml</p>
</span></span>
<p> </p>
</span></p>
<p> </p>
3 楼 anson2003 2009-05-16  
你还是看这个例子吧

http://anson2003.iteye.com/blog/388886

附件中都有配置文件。

不用你去配置了。你可以再配置一遍
2 楼 anson2003 2009-05-16  
wangchao_0625 写道

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:




如果出错,请看.log文件,还有你把conf目录下对应的xml配置文件传上来。我看一下。

附件中是我的xml配置文件,你把他放到conf目录下,在测试一下,记得修改“保存方式”。
1 楼 wangchao_0625 2009-05-16  

我看了下,不过还是没有使用成功,
每次开始正则测试,一开始就没了回音,并没有像你的演示那样:
要不报错,要不立马有了结果
如下所示:

相关推荐

    Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

    本资源"Java-Web-crawler-spider.rar"包含了一套Java编写的Web爬虫源码,提供了智能网罗信息的能力。 首先,我们要理解Web爬虫的基本工作原理。Web爬虫通过模拟浏览器向服务器发送HTTP请求,获取网页HTML内容,然后...

    WebCrawler Java爬虫

    6. **爬虫框架**:在Java世界中,有一些现成的爬虫框架可以帮助开发者快速搭建爬虫项目,例如WebMagic、Colly和Jsoup-Crawler。这些框架提供了更高级的功能,如自动跟踪链接、断点续爬、异常处理等,降低了开发难度...

    网络爬虫 C++ Crawler Spider

    网络爬虫,也被称为Web Spider或Crawler,是自动化浏览互联网并抓取信息的一种程序。在C++中实现网络爬虫是一项技术性很强的任务,它涉及到HTTP协议、HTML解析、数据存储等多个领域的知识。本节将深入探讨这些关键点...

    Java-Web-crawler-.zip_JAVA web 爬虫_crawler_java web crawler_java

    在这个“Java-Web-crawler-.zip”压缩包中,我们可以期待找到一个适合初学者的Java Web爬虫项目,旨在帮助提升编程技能。 Java Web爬虫的基础知识点包括: 1. **HTTP和HTTPS协议**:爬虫工作在Web上,因此必须理解...

    crawler spider web爬虫

    【标题】"Crawler Spider Web爬虫"是一个基于C++实现的网络爬虫项目,它旨在高效地抓取和处理互联网上的网页数据。在互联网的世界里,爬虫是一种自动化程序,能够按照一定的规则遍历网站,收集所需信息,是数据分析...

    WebCrawler

    WebCrawler是一个基于Java开发的爬虫框架,它主要用于网络数据的抓取和处理。作为一个高级的爬虫工具,WebCrawler具备了多种特性和功能,使得开发者能够更精细、定向地进行网络爬取任务。 1. **Java爬虫技术**: ...

    用java写的crawler(spider)网络爬虫 源代码

    ### Java编写的网络爬虫(Crawler/Spider)关键知识点解析 #### 一、网络爬虫(Crawler/Spider)概述 网络爬虫(Web Crawler),也称为网页蜘蛛、网络机器人等,是一种按照一定的规则自动抓取万维网信息的程序或者脚本...

    wlpc.rar_CRAWL_java网络爬虫_web crawler_爬虫

    网络爬虫,也被称为Web爬虫或Web机器人,是一种自动浏览互联网并抓取网页内容的程序。在Java中实现网络爬虫,可以让我们方便地获取大量网页数据,用于数据分析、信息提取、搜索引擎优化等多个领域。本项目“wlpc.rar...

    java-crawler-master_java爬虫_爬虫雪球_爬虫_股票_

    在这个“java-crawler-master”项目中,开发者构建了一个专门针对雪球网的爬虫,雪球网是一个知名的投资者社区,提供股票信息、投资组合以及用户讨论等丰富的数据。 该项目的核心知识点主要包括以下几个方面: 1. ...

    java爬虫登录验证码解析.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Boss直聘Java爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    java爬虫的DEMO的实现

    5. **爬虫框架**:除了自己编写爬虫逻辑,还可以利用已有的爬虫框架,如WebMagic、Jsoup-Crawler等,它们提供了更便捷的API来构建和管理爬虫项目。 6. **反爬虫策略**:许多网站有反爬虫机制,如验证码、动态加载...

    java爬虫,利用代理IP爬取大众点评网站内容.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    instagram用户信息 照片 视频动态 Java爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Java编写spider网络爬虫程序源码

    网络爬虫(Web Crawler)是一种自动遍历并抓取网页的程序,它通过模拟浏览器请求网页,然后解析HTML内容,提取出我们需要的信息。在Java中,我们可以使用HttpURLConnection或者HttpClient库来发起HTTP请求,获取网页...

    Java爬虫。。。。。

    6. **爬虫框架**:有一些成熟的Java爬虫框架,如WebMagic、Colt和Crawler4j,它们提供了一套完整的爬虫解决方案,简化了开发过程。 7. **视频教程与源码**:题目中提到的"有视频有源码"可能是指提供了一套教学资源...

    java爬虫模拟登陆源码

    本文将深入探讨这一主题,介绍如何使用Java编写爬虫进行模拟登录,并获取登录后的网页数据。 首先,我们需要理解模拟登录的基本流程。在用户通过浏览器登录网站时,通常会发送一个HTTP请求到服务器,携带用户名、...

    分布式Web Crawler系统研究与实现.pdf

    1. Web爬虫策略:包括爬虫的爬取策略、爬虫的并发控制、爬虫的负载均衡等。爬虫策略的选择直接影响爬虫的性能和可扩展性。 2. 分布式系统架构:包括分布式系统的设计、分布式系统的通信机制、分布式系统的负载均衡...

Global site tag (gtag.js) - Google Analytics