前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199 是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。
百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也不错了。
本次抓取的思路:
1)通过百科的每一个词条入口,这个建立在你已经有一批词条,然后调用首页的“进入词条”搜索,可以直接抓取到词条内容。(原始的词条你可以网上收集分词词库) 现在搜索的入口调用地址也用js封装起来了,估计得用httpwatch来找地址了,估计以后会越来越难找入口。
2)通过分类导航抓取词条的名词和词条的链接,根据词条的链接又抓取一部分词条内容。
如文化遗产: http://baike.baidu.com/fenlei/文化遗产 入口,抓取页面内容和翻页内容,解析每页当中的词条链接,得到的词条链接再单独抓取 http://baike.baidu.com/view/dddd.htm (dddd表示词条ID)得到词条内容。 (分类名称可以通过解析词条内容得到一部分;通过入口页自己整理一部分。)
3)对抓取到的具体词条内容解析其中的开放分类,可以得到更多的分类.根据该分类,循环步骤2)可以得到更多的词条。
4)对抓取到的具体词条内容解析其中的超链接 (这个参考htmlcleaner Object[] ns = node.evaluateXPath("//a"); ),匹配http://baike.baidu.com/view/dddd.htm (dddd表示数字) 都是具体的词条。
5)重复3和4可以抓取更多的词条。
6)对抓取的词条估计有200w左右吧,再进一步筛选你认为优质的词条,估计也就70w左右吧。 当然还有很多不怎么常用的词条,估计用处也不大。
相关推荐
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...
《Mdcit词库——蜘蛛网疾病百科》是一款专门针对疾病知识的检索工具,它集成了丰富的医学术语和疾病信息,旨在帮助用户快速查询和理解各类疾病。该词库以“蜘蛛网”为形象比喻,寓意其内容广泛且相互关联,如同...
《中文同义词词库-Access版本》是一个专门用于处理中文同义词关系的数据资源,它采用Microsoft Access数据库格式,方便用户进行数据管理和查询。在自然语言处理(NLP)和文本挖掘领域,同义词词库是至关重要的工具,...
《中文综合分词词库2014-03-11》是一个专门针对中文文本处理的重要资源,它主要用于中文分词任务。中文分词是自然语言处理(NLP)中的基础步骤,对于后续的语义理解、信息提取、情感分析等任务至关重要。词库在其中...
在这个特别的“9.5”超大词库版中,我们可以预见到开发者海峰对词库进行了大量的扩充和优化,以提供更全面的词汇选择和更高的输入效率。 首先,文件名中的“6.5版”指的是极点输入法的一个特定版本。通常,软件的...
用于ubuntu等Linux, ibus框架的搜狗词库-非常全面 原始文件名:sougou-phrases-full.7z 运行以下命令: sudo add-apt-repository ppa:shawn-p-huang/ppa sudo apt-get update sudo apt-get dist-upgrade 下载词库 ...
随着互联网和信息的增长,新的公司不断涌现,这就要求分词系统能够不断更新和扩充其词库,以保持其准确性和有效性。而像这样的词库可以帮助分词系统快速适应语言的演变,提高对现实世界文本处理的能力。 使用这样...
总之,《百度百科1-3000》MDict词库是一个集便捷、全面、深度于一体的中文知识库,无论对于学生、教师、专业工作者,还是对知识有着浓厚兴趣的普通读者,都是一个不容错过的资源。通过“百度百科1-3000条.mdx”文件...
自然语言处理分词_拆字词库chaizi-jt.txt的核心价值在于它提供了一种标准化的汉字拆分方法,使得机器可以按照既定规则理解汉字的结构,从而在处理诸如文本挖掘、机器翻译、语音识别、情感分析等任务时,能够正确地...
而随着词库规模的扩大,9万和12万词条的词库在覆盖更广泛的专业术语和生僻词汇上表现更优,对于经常需要处理专业文档或者需要快速输入复杂文字的用户来说,更大的词库能显著提高输入效率。 98版QQ五笔的词库设计...
搜狗输入法官网上的所有细胞词典,截止到2020年5月20号,并且转换为txt形式。有需要的同学自取。共11104个。 搜狗输入法官方词库地址:https://pinyin.sogou.com/dict/cate/index/1
lingous词典的汉英词库 Langdao C-E Dictionary.ld2
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...
【BetterRime词库】-NEW实用版V2.1.1是一款专为Rime输入法用户设计的词典更新,由贴吧用户imy0823精心制作并分享。这款词库旨在提升输入法的准确性和效率,提供更加丰富的词汇和更贴近现代语言习惯的输入体验。 ...
在使用过程中,用户可能会遇到需要删除或管理词库文件的情况,以优化软件性能或者根据个人需求定制查词体验。以下是关于如何删除QQ词典词库文件的详细步骤和相关知识点: 首先,我们可以通过两种主要方法来实现词库...
《ibus词库码表——98简码与98沧海词库详解》 在中文输入法领域,ibus是一款广泛使用的开源输入框架,它支持多种输入法引擎,为用户提供便捷的汉字输入体验。本文将详细解析标题中的“ibus词库码表——98简码(98...
搜狗词库整理,不到2万个TXT文件,每个文件有若干词汇,一共大约3000W+的词汇,若想合并一个TXT,和通过:开始--运行--cmd--进入到文件夹--执行命令【type *.txt > d:\a.txt】。 全文检索拆词的较好选择
第一个部分是拆分后的字或词的候选形式,第二个部分是该候选形式的详细描述,其中可能包含组合规则和笔画信息等。例如,“丁”和“一亅”之间有一个空格,“一”和“亅”分别是“丁”字可以拆分的两个部分。这样的...
《中文同义词词库:理解与应用》 在自然语言处理和文本分析领域,同义词词库扮演着至关重要的角色。同义词是指在特定语境下具有相似或相同意义的词汇,它们能够丰富语言表达,提高文本多样性。本资源——"中文同义...
标题中的“2018-01-01至2019-05-31百度关键词词库热门词库”指的是一个收集了自2018年年初到2019年5月底期间,在中国最知名的搜索引擎——百度上搜索量较高的关键词集合。这个关键词词库对于网络营销、搜索引擎优化...