anson2003

浏览: 95633 次
性别:
来自: 上海

最近访客更多访客>>

wang0123

dove19900520

shenyxhihi

zhushiliang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

WebCrawler实例配置(二)

博客分类：

WebCrawler使用实例

正则表达式 JavaScript Apache .net HTML

爬虫下载地址:http://anson2003.iteye.com/blog/385344

如何抓取图片(Binary) 到本地

在配置中选择Binary 字段类型 . 所有的 Binary 下载下来之后自动重命名为 MD5(url).b

存储位置和下载地址分别都在映射表达式里指定. 最多尝试 3 次抓取。

如抓取baidu 的 Logo:

Regex表达式为 : <img src=([^\s]+)

在配置工具中： {d:\a||$1}<img src=([^\s]+)

表示下载Logo 到 d:\a 目录下， || 表示存储路径和抓取的图片路径的变量分割符。 {} 表示对数据的补充说明。

详细见附件示例。

如何在组中引用其他字段，隐含字段的使用

在同一个组的配置当中，如果有一个字段需要依赖另外一个字段。只要在映射表达式中加入:

$[引用字段名 ]

2个隐含字段 $[PAGE_URL],$[PAGE_SOURCE]

$[PAGE_SOURCE] 有 2 种情况，如果有“循环块”的时候，此时该值为循环块取出来的部分数据，如果无循环块为当前页面的所有 HTML 。

$[PAGE_URL]:当前处理的 URL 地址，此地址为全路径。

如何配置自动分页

比如你入口地址只配置了一页，那你可以定义一个分页组（就是找到“下一页”的地方，然后把该取出来的值定义为Url 类型字段）。这里有些网站始终都有下一页，而且每个下一页的地址都没报错（下一页Url 都不一样）。导致爬虫一直抓取下去。

何为URL 类型字段：就是会告诉爬虫我要抓取这个 URL ，简单的说，自动把 URL 加入爬虫抓取列表。

如何使用函数，如何扩展函数

函数使用:

$fn:functionName([param1||param2||.......])

必须有返回值，返回值会自动被toString(), 参数必须为 string 类型。

默认被注册的方法有 apache common-lang StringUtils 里的方法

String sbcChang e(string) 全角转半角

String zhNum2AlNum (string) 中文转阿拉伯数字

String regexReplace(String s, String regex, String replacement) 正则替换

String UnicodeJsToString(String s) javascript的 unicode 转码

String encode(String value, String charset) URL编码

String decode(String value, String charset) URL解码

String md5(String value) MD5

String to64(String value) base64编码

String de64(String value) base64解码

String cl(String s) 清除html 的 tag

如何扩展：

在conf 目录下新增一个 function.conf 的properties 文件 , 加入你自己的类 :

o bject. 1 = com.tmp.Test1

#注册 Test1 所有的带有 string 参数的所有静态方法，和实例化之后的所有带 string 参数的函数。

static.1 = com.tmp.Test2

#注册 Test2 所有的带有 string 参数的所有静态方法

# object. 和 static. 前缀的属性值里的类的方法都会被注册到爬虫里。

连接池支持（减少数据库连接次数）

在WebCrawler.bat中，加入启动参数: -Dsupport_ds=1

示例二下载地址: https://www.box.com/shared/9oj43jy0lj

图片示例.rar (1.7 MB)
下载次数: 93

2
顶

0
踩

分享到：

Oracle SQL 优化 | 抓取网站实例配置(一)

2009-05-16 08:47
浏览 2758
评论(1)
分类:企业架构
查看更多

1 楼 cannysqurrel 2011-03-14

正打算自己弄一个爬虫更新我的网站，发现这个很适合，文件下载不了，能邮件发给我一份吗麻烦将抓取说明书也发一份 cannysquirrel@gmail.com

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

WebCrawler实例配置(二)

如何抓取图片(Binary) 到本地

如何在组中引用其他字段，隐含字段的使用

如何配置自动分页

如何使用函数，如何扩展函数

连接池支持（减少数据库连接次数）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

WebCrawler实例配置(二)

如何抓取图片(Binary) 到本地

如何在组中引用其他字段，隐含字段的使用

如何配置自动分页

如何使用函数，如何扩展函数

连接池支持（减少数据库连接次数）

评论

发表评论

相关推荐

抓取网站实例配置(一)

最近访客更多访客>>