垂直搜索-爬虫部分 -

jimmee

浏览: 562179 次
性别:
来自: 杭州

最近访客更多访客>>

loven_11

shohokuf

sunyeshigou

新的开始2015

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

垂直搜索-爬虫部分

博客分类：

搜索引擎
笔记

垂直爬虫搜索列表页详情页

垂直搜索与通用搜索不同之处在于，通用搜索不需要理会网站哪些资源是需要的，哪些是不需要的，一并抓取并将其文本部分做索引。而垂直搜索里，我们的目标网站往往在某一领域具有其专业性，其整体网站的结构相当规范，并且垂直搜索往往只需要其中一部分具有垂直性的资源，所以垂直爬虫相比通用爬虫更加精确。

垂直爬虫抓取数据分成三个步骤：list-crawling(列表url抓取)，detail-crawling(详情url抓取)，data-extract and store (数据抽取和存储)，其实原理上并不复杂，以下是整体垂直搜索的架构及流程图：

1. 首先运营人员会选定需要抓取的目标网站，录入数据库的站源表sitelist，即这些url作为爬虫的seed。同时，开发人员会在爬虫规则库中增加相应网站的规则解析。

2．crawler读取种子url，根据事先制定的规则（一般是正则表达式规则），从种子url中进行列表页url的抽取，并提取出来保存到数据库中（实际工作中，直接抽取出来放到调度队列中，继续抓取）。需要注意的是，很多网站的列表页的url都是通过js的方式处理的，因此制定规则时，需要懂得js分析。

3. 进行列表页url的请求，之后抽取出详情页的url列表

4. 进行详情页url的请求，之后抽取出具体的数据。

其他一些点补充：

1. url会做去重处理，不会重复调度同样的url

2. 抽取数据的过程中，一般都是使用xpath处理。

查看图片附件

分享到：

通用爬虫框架及heritrix爬虫介绍 | MessagePack, Protocol Buffers和Thrift序 ...

2014-04-09 23:11
浏览 2211
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

垂直搜索-爬虫部分

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

垂直搜索-爬虫部分

评论

发表评论

相关推荐

Java 并发之 ConcurrentSkipListMap 简述

hbase等源码导入eclipse流程

听吴军博士的"机器智能与未来世界"讲座的一点笔记

lucene索引创建的理解思路

lucene的拼写检查的实现原理

字符串相似算法-(3) NGram Distance

字符串相似算法-(2) Levenshtein distance

字符串相似算法-(1) Jaro-Winkler Distance

智能应用中八个常见的误区

通用爬虫框架及heritrix爬虫介绍

MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明

Lucene的数字范围搜索 (Numeric Range Query)原理

mapreduce的一些算法设计，优化等（2）

mapreduce的一些算法设计，优化等（1）

hadoop的mapreduce的join操作原理

hadoop的mapreduce的一些关键点整理

整理一下准备编写的笔记目录

两张类图理解lucene的索引过程

文本压缩笔记（一）：总述

最近访客更多访客>>