`

主题爬虫(转载)

阅读更多

聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。

 

聚焦爬虫的研究核心,集中在以下两点:

 

(一)   主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保存到网页库;不相关的,则抛弃不管。

(二)   主题相关度预测:主题相关度预测是针对待抓URL的。也就是我们在分析当前已下载网页时所分离出来的哪些URLS。我们要通过计算它们的主题预测值来决定接下来是否对该URL所对应的网页进行抓取。

 

针对以上两个问题,研究聚焦爬虫的学者们大体提出了如下思路和方法来进行该课题的研究:

(一) 基于网络拓扑结构的研究方法:网络的拓扑结构表征了网页间的一种链接关系,而大部分互相链接的网页间还是有一定的主题关联性的。比方说,一个介绍“计算机学科知识”的网站首页上可能会出现“数据库”、“操作系统”等相关子学科的链接。这种链接本身就体现了一种主题上的关联性。再者,了解PageRankHITS算法的朋友都知道,网页间的链接关系还能反映网页的重要程度,越是重要的网页被别的网页链接到的机会便越大。而比较重要的网页往往聚集了最上层的主题,它的主题可以反馈到它所链接的所有网页中。

(二) 基于网页内容的分析算法:基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价算法。它包括纯文本的分类与聚类算法和超文本的分类聚类算法。纯文本即网页上的文字内容,分析它的主题相关度主要从两个方面入手,一个是它主题词出现的频率(词频),再者就是主题词出现的位置,我们知道在网页标题中出现的词汇往往更能反映网页的主题信息。超文本,就是网页连接上的文字信息。它一方面可以作为当前页面主题相关度的一个判别标准,更主要的,它被用作主题预测值的计算,即判断该URL所对应的网页的主题相关性。

(三)   基于URL的分析:主要还是用于主题预测。从三个方面进行考虑:

1 URL串自身所携带的信息。对于以下两个链接的分析:

URL1http://beijing.koubei.com/fang

URL2http://beijing.koubei.com/lvyoupiaowu/lvyou

我们很容易知道URL1是有关北京(beijing)的与“房(fang)”的话题,而URL2则是有关北京(beijing)方面与旅游(lvyou)有关,并且会涉及到旅游票务(lvyoupiaowu)的网页。

 

2 URL可分为三个部分 前面部分的主题信息可以反馈到后面的子目录中;

一个URL分成三个部分(去掉http协议部分):hostpathquery。其中,path由一系列directory组成,query由一系列键值对组成。比如http://www.sdust.edu.cn/news_show.php?id=15 ,其hostwww.sdust.edu.cnpath/news_show.phpqueryid=15,组成该query的键值对为(id15)。URLhost往往说明的一个大的主题,如www.sdust.edu.cn所对应的是“山东科技大学”的网站,他的大主题就是“山东科技大学”;而其后的path则表征了有关与“山东科技大学”有关的子类主题信息,比如时事新闻、科研建设、校园活动等等;query项所对应的是最为具体的信息,该实例中id=15对应的就是“山东科技大学 信息中心 -- 科学研究”目录下的“科研概况”信息。

3 URL锚文本所体现的信息。

锚文本也叫链接文本,指超链接的文本内容,一般认为,锚文本代表了网页作者对超链接所指向网页的评价和描述。因此,锚文本可能不会为网页自身的主题预测提供有用的信息,但是它极有可能为它的目标网页的主题预测提供非常重要的信息。比如对于<a href=”hyperlink”>聚焦爬虫</a>,所代表的网页主题很可能是聚焦爬虫方面的。

扩展锚文本指锚文本和锚文本附近文本的组合。引入扩展锚文本的概念是为了更准确地预测目标网页的主题相关度。在有些情况锚下,文本仅仅是“点击这里”、“详细信息”等较抽象的描述,这个时候扩展锚文本比锚文本身更具有描述能力。

 

说了一大堆关于主题爬虫研究方面的东西,不知道有没有说清楚。希望感兴趣的朋友能对聚焦爬虫的研究发表自己的看法,提出一些计算主题相关度和进行页面主题相关性预测的办法。以对我有所启发,万分感谢!

 

分享到:
评论

相关推荐

    初学Python之爬虫的教程 以及案例

    聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入待抓取的URL队列,再根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足系统的一定条件时停止。...

    4-SEO的内容策略.pptx

    为了使内容受欢迎,需要确保内容与网站的主题紧密相关,满足目标受众的需求。分享性意味着内容需要针对特定人群设计,考虑他们会感兴趣的话题。交流性则强调网站应鼓励用户参与讨论,例如通过论坛或评论功能。互助性...

    租赁合同租赁物件清单导入模板.xls

    然后,循序渐进地介绍了一些相对高级的主题,包括抽象、异常、文件、GUI,网络编程,爬虫等。 此后,探讨了如何将 Python 与数据库、网络、Java 语言、Shell 脚本等工具结合使用。 最后,课程将结合实际应用场景...

    seo入门考试题借鉴.pdf

    8. 目标关键词放在标题标签中效果最佳,因为标题标签是搜索引擎判断页面主题的重要依据。 9. 在关键词分析时,错误的思路是选择热门关键词,这可能使竞争过于激烈,而应选择适当热度且与网站内容相关的关键词。 10. ...

    seo网站优化计算公式参考.pdf

    伪原创和转载内容也有其价值,但需确保它们对用户有意义,并且在搜索引擎眼中不被视为重复或低质量的内容。内容的更新频率和时效性也是重要的考虑因素。 2. **链接(Links,L2)**:链接分为内部链接和外部链接。...

    网站推广必备攻略(共8页).doc

    选择与网站主题相符且信誉良好的站点交换链接,特别是与高PR值的网站合作,可以显著提高Google的Page Rank,从而提升网站在搜索结果中的排名。 此外,鼓励并允许其他网站合理转载内容,同时在文章中嵌入网站网址等...

    分享如何快速做高质量的外链.pdf

    高质量的外链可以有效地引导搜索引擎爬虫发现你的网站,增加网站的可信度,从而提高在搜索引擎结果页中的排名。外链的建设不仅需要数量,更需要质量,因为搜索引擎更倾向于那些来自权威网站的链接。下面我们将详细...

    10大wordpress百度SEO优化增加收录的方法.docx

    【WordPress百度SEO优化...以上10个方法都是为了使WordPress博客更适应百度的爬虫算法,从而提高文章的收录数量和搜索排名。实施这些优化策略需要时间和耐心,但长期来看,它们将对网站的流量和可见性产生积极影响。

    10大wordpress百度SEO优化增加收录的方法.pdf

    手动在网页模板中添加关键词和描述,使用文章的Tag作为关键词,摘要作为描述,便于搜索引擎理解文章主题。 4. **将首页设计成CMS风格**: 通过展示文章摘要、启用文章缩略图、丰富侧边栏内容(如最新文章、随机...

    原创内容是网站建设及优化的核心.pdf

    当网站拥有丰富且有深度的原创内容时,搜索引擎的爬虫会更频繁地访问,这有助于提高网站的索引速度和范围。 #### 三、原创内容与链接建设 **原创内容**还对链接建设起着至关重要的作用。当网站发布高质量的原创...

    SEO网站优化方案(模板).docx

    - **转载复制:** 避免大量转载或复制内容。 **13. 主要SEO工具推荐:** - **关键词排名查询:** SEMrush、Ahrefs等。 - **GOOGLE网站管理员工具:** 提供网站性能数据和故障排查功能。 - **FireFox SeoQuake插件:...

    想要做好SEO优化,要具备一下技能!.docx

    - **内容比例**:建议原创内容占比至少50%,伪原创内容占30%,其余为转载内容。 ### 五、内外链接建设 - **内部链接**:建立良好的内部链接结构,提高用户浏览体验,同时帮助搜索引擎更好地索引网站。 - **外部...

    分享网站推广方法与策略..docx

    - 包括向搜索引擎爬虫提交以及向分类目录提交,从而提高网站被搜索引擎收录的可能性。 通过综合运用上述策略,可以有效地提升网站的知名度和访问量,最终实现将访问者转化为忠实客户的终极目标。

    如何快速收录网站,方法大集合.pdf

    - 搜索引擎通过爬虫技术发现新网站,主要是通过其他已收录网站的链接找到新站。因此,新站建立后,确保有外部链接指向你的网站是关键。 - Google通常能较快地收录新站,但排名可能不高,因为它更重视网站的...

    如何快速大量提升网站收录量.docx

    5. 避免恶劣采集:虽然合理转载可以增加收录量,但过度依赖或采集与网站主题不相关的内容,会降低网站权重,严重时甚至可能导致被搜索引擎惩罚。 总结起来,提升网站收录量的核心在于提供优质、独特和有价值的内容...

    如何快速让新站被各大搜索引擎收录[文].pdf

    搜索引擎收录新网站的基本原则是通过外部链接发现网站的存在,并且网站的`robots.txt`文件未阻止搜索引擎的爬虫访问。当新站上线后,如果没有外部链接指向它,搜索引擎无法得知其存在。Google通常能快速收录新站,...

    seo面试题及答案[参考].pdf

    4. 在选择友情链接时,应优先选择与主题相关且PR值高的网站。 5. 精准关键词的“基础三度”包括相关度、流行度和竞争度,不包括相似度。 6. 对于女性服装批发网站,最佳关键词是“女性服装批发”。 7. HTTP状态码200...

    如何有效进行网站SEO优化.docx

    - **SEO友好**:添加ALT标签给图片,避免使用影响爬虫抓取的元素,设置301重定向、站点地图和404错误页面。 - **内容策略**:以原创内容为主,适当使用伪原创,减少转载,注意锚文本的合理分布,遵循优化原则。 4...

    SEO基本操作手法20条.docx

    合理的内部链接结构能够促进搜索引擎爬虫更好地抓取网站内容,同时也有助于提升用户体验。建立一个良好的内部链接网络,使得各个页面之间相互关联,形成一个完整的“蜘蛛网”。 #### 8. 增加外部链接 外部链接是...

Global site tag (gtag.js) - Google Analytics