`
anson2003
  • 浏览: 95293 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

WebCrawler实例配置(二)

阅读更多

爬虫下载地址:http://anson2003.iteye.com/blog/385344

 

如何抓取图片(Binary) 到本地

 

 

在配置中选择Binary  字段类型 所有的 Binary 下载下来之后自动重命名为 MD5(url).b

存储位置和下载地址分别都在映射表达式里指定 最多尝试 3 次抓取。

 

如抓取baidu Logo:

<img src=http://www.baidu.com/img/baidu_logo.gif width=270 height=129 usemap="#mp" id=lg>

 

Regex表达式为 : <img src=([^\s]+)  

 

在配置工具中: {d:\a||$1}<img src=([^\s]+) 

 

表示下载Logo d:\a 目录下, ||  表示存储路径和抓取的图片路径的变量分割符。 {} 表示对数据的补充说明。

 

详细见附件示例。

 

 

如何在组中引用其他字段,隐含字段的使用

 

在同一个组的配置当中,如果有一个字段需要依赖另外一个字段。只要在映射表达式中加入:

$[引用字段名 ]

 

2个隐含字段  $[PAGE_URL],$[PAGE_SOURCE]

 

$[PAGE_SOURCE]  2 种情况,如果有“循环块”的时候,此时该值为循环块取出来的部分数据,如果无循环块为当前页面的所有 HTML

$[PAGE_URL]:当前处理的 URL 地址,此地址为全路径。

 

 

如何配置自动分页

 

比如你入口地址只配置了一页,那你可以定义一个分页组(就是找到“下一页”的地方,然后把该取出来的值定义为Url 类型字段)。 这里有些网站始终都有下一页,而且每个下一页的地址都没报错(下一页Url 都不一样)。导致爬虫一直抓取下去。

 

何为URL 类型字段:就是会告诉爬虫我要抓取这个 URL ,简单的说,自动把 URL 加入爬虫抓取列表。

 

如何使用函数,如何扩展函数

 

 

函数使用:

 

$fn:functionName([param1||param2||.......])

 

必须有返回值,返回值会自动被toString(), 参数必须为 string 类型。

 

默认被注册的方法有 apache common-lang StringUtils 里的方法

String  sbcChang e(string) 全角转半角

String  zhNum2AlNum (string) 中文转阿拉伯数字

String regexReplace(String s, String regex, String replacement) 正则替换

String UnicodeJsToString(String s) javascript unicode 转码

String encode(String value, String charset) URL编码

String decode(String value, String charset) URL解码

String md5(String value)  MD5

String to64(String value) base64编码

String de64(String value) base64解码

String cl(String s)  清除html tag

 

 

如何扩展:

 

conf 目录下新增一个  function.conf  的properties 文件 , 加入你自己的类 :

 

o bject. 1 =  com.tmp.Test1

 

#注册 Test1 所有的带有 string 参数的所有静态方法,和实例化之后的所有带 string 参数的函数。

 

static.1 = com.tmp.Test2

 

#注册 Test2 所有的带有 string 参数的所有静态方法

 

# object.     static. 前缀的属性值里的类的方法都会被注册到爬虫里。

 

 

连接池支持(减少数据库连接次数)

 

在WebCrawler.bat中,加入启动参数: -Dsupport_ds=1

 

 

示例二下载地址: https://www.box.com/shared/9oj43jy0lj

2
0
分享到:
评论
1 楼 cannysqurrel 2011-03-14  
正打算自己弄一个爬虫更新我的网站,发现这个很适合,文件下载不了,能邮件发给我一份吗麻烦将抓取说明书也发一份  cannysquirrel@gmail.com

相关推荐

    PHPCrawl webcrawler 爬虫

    1. **启动爬虫**:首先,我们需要创建一个PHPCrawl_Crawler实例,配置基本参数如爬取深度、超时时间、线程数等。 2. **添加种子URL**:然后,通过`addSeed()`方法添加起始URL,这些URL会被放入队列开始爬取。 3. *...

    PHPCrawl.rar_PHP CRAWLER_PHPCrawl_crawler_web crawler in PHP_爬虫

    2. **初始化**:创建Crawler实例,设置基本参数如用户代理、爬取速度等。 3. **添加起始URL**:将需要爬取的初始URL添加到队列中。 4. **配置回调函数**:定义数据提取和链接处理的回调函数。 5. **开始爬取**:调用...

    Web Crawler_Spider用于NodeJS +服务器端jQuery;-).zip

    创建一个Crawler实例,指定要爬取的URL和回调函数,后者将处理每个抓取到的页面内容。 3. **解析HTML**:在回调函数中,可以利用jQuery处理HTML,查找需要的数据。例如,使用`jQuery.parseHTML()`将字符串转换为DOM...

    爬虫crawler4j源码+实例

    - **WebCrawler**: 这是用户需要自定义的关键类,用于定义爬取行为。你需要实现`visit(Page)`方法,该方法会在每个页面被访问时被调用。`Page`对象包含了当前页面的URL、HTML内容以及发现的链接。 - **Config**: ...

    Wang-Kang/WebCrawler:在爬行过程中下载预先指定类型文件的网络爬虫。-matlab开发

    标题提到的是"Wang-Kang/WebCrawler"项目,这是一个使用MATLAB开发的网络爬虫,专门设计用于在爬行过程中下载特定类型的文件。MATLAB是一种广泛使用的编程环境,通常用于数值计算、符号计算、数据分析以及图像处理等...

    Crawler4j-3.5 源码 类包 依赖包

    - 创建Controller实例,启动爬虫,传入配置好的WebCrawler和Frontier。 **3. 源码分析:** - `Fetcher`模块负责网页的下载,包括HTTP请求的发送和响应的处理。 - `Parser`模块处理HTML内容,通过解析器(如Jsoup...

    Methabot Web Crawler-开源

    5. **应用实例** 甲醇常用于数据分析、市场研究、竞争情报、网站监控等多种场景。例如,电商公司可能会使用它来抓取竞争对手的商品价格,以便实时调整自家策略;搜索引擎可能会用它来更新索引;而研究人员则可能...

    WebCrawler

    总的来说,WebCrawler项目是一个涵盖了Python网络爬虫开发全过程的实例,涉及了从请求、解析、数据提取到存储和异常处理等多个环节的技术应用。通过学习和理解这个项目,可以深入掌握Python在网络爬虫领域的实践应用...

    Webcrawler:使用 Crawler4J 的网络爬虫。 它将跟踪它所访问的所有子域和 500 个最常见的单词。 Eclipse准备好了

    3. **启动Crawler**:通过`CrawlController`来启动爬虫,传入配置好的`CrawlerConfig`和WebCrawler的类。 **跟踪子域名** Crawler4J允许爬虫跟踪并抓取与初始种子URL相关的所有子域名。这可以通过在`shouldVisit`...

    crawler4j-4.1-jar-with-dependencies

    3. 创建并启动`WebCrawler`实例,指定初始URL和爬虫配置。 4. 使用SLF4J记录爬取过程中的日志,例如`logger.info("Visited: {}", url)`。 **示例代码** ```java import edu.uci.ics.crawler4j.crawler.WebCrawler; ...

    webcrawler:这是为CSC 376分布式系统制作的网络爬虫

    【标题】中的“webcrawler”是一个专为CSC 376分布式系统设计的网络爬虫项目,这表明我们将在讨论一个用Java编程语言实现的、用于抓取和处理Web内容的工具。网络爬虫是互联网上的自动化程序,它遍历网页并收集信息,...

    爬虫+selenium自动化+C#+采集器+strong-web-crawler-master

    总的来说,“Strong-Web-Crawler-master”项目提供了一个C#与Selenium结合的爬虫框架实例,它展示了如何利用这两种技术有效地抓取和处理Web数据。开发者可以根据自身需求对这个项目进行定制和扩展,构建出适合自己...

    php_web_spider:A web crawler written in PHP php网络蜘蛛,信息收集工具A web spider, using php, based on cURL & simple html dom

    php_web_spider ...A web spider, using ...// 添加php_web_spider,创建一个实例 require_once('./php_web_spider.php'); $sp = new spider; 应用场合一 抓取检索结果 // eg1 可以直接get百度检索结果 $url = 'http://ww

    crawler4j是Java实现的开源网络爬虫

    - **创建爬虫类**:继承 `WebCrawler` 类,并重写 `visit` 方法,该方法会在访问每个网页时被调用。 - **配置爬虫**:初始化 `CrawlConfig` 对象,设置爬虫的参数,如启动 URL、线程数、最大深度等。 - **启动...

    Maoyan-web-crawler-based-on-Python.rar

    【猫眼电影评论爬虫基于Python】项目是一个深入学习Python网络爬虫技术的实际应用实例,主要涉及以下几个核心知识点: 1. **Python基础**:作为项目的编程语言,Python以其简洁易读的语法和丰富的库资源成为了数据...

    ASP.NET实例开发源码——推出网CSDN小偷程序.zip

    4. **配置文件(Web.config)**:存储应用程序的配置信息,如数据库连接字符串、爬虫的起始URL、抓取频率等。 5. **异常处理和日志记录**:为了确保程序的健壮性,源码中可能会有异常处理代码,以及日志记录功能,...

    C# 简单爬虫实例.zip

    在本压缩包"C#简单爬虫实例.zip"中,包含了一个C#编程语言实现的简单网络爬虫项目,名为"Simple-Web-Crawler-master"。这个项目非常适合初学者或者对C#有一定基础的开发者,想要了解如何利用C#进行网页抓取和数据...

    ASP实例开发源码-起点动漫asp爬虫程序后台管理.zip

    - 爬虫(Web Crawler)是自动化地遍历互联网,抓取网页内容的程序。在这个实例中,爬虫可能用于收集起点动漫网站上的动漫信息,如标题、作者、更新状态等。 - ASP编写爬虫主要涉及HTTP请求(通过ServerXMLHTTP或...

    用JavaFX开发基于crawler4j的图形化的网络爬虫

    其次,crawler4j是一个轻量级且易于使用的Java爬虫库,它支持多线程爬取,可以方便地配置爬虫行为。在JavaFX应用中,我们将集成crawler4j,通过其实现对目标网站的抓取。使用crawler4j,我们可以轻松地设置爬虫规则...

Global site tag (gtag.js) - Google Analytics