`

词库的扩充-百度百科的抓取(二)

 
阅读更多



        前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199  是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。

       百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也不错了。

     本次抓取的思路:

     1)通过百科的每一个词条入口,这个建立在你已经有一批词条,然后调用首页的“进入词条”搜索,可以直接抓取到词条内容。(原始的词条你可以网上收集分词词库) 现在搜索的入口调用地址也用js封装起来了,估计得用httpwatch来找地址了,估计以后会越来越难找入口。

    

      2)通过分类导航抓取词条的名词和词条的链接,根据词条的链接又抓取一部分词条内容。

          如文化遗产: http://baike.baidu.com/fenlei/文化遗产  入口,抓取页面内容和翻页内容,解析每页当中的词条链接,得到的词条链接再单独抓取 http://baike.baidu.com/view/dddd.htm (dddd表示词条ID)得到词条内容。 (分类名称可以通过解析词条内容得到一部分;通过入口页自己整理一部分。)

     

      3)对抓取到的具体词条内容解析其中的开放分类,可以得到更多的分类.根据该分类,循环步骤2)可以得到更多的词条。

    

    4)对抓取到的具体词条内容解析其中的超链接 (这个参考htmlcleaner Object[] ns = node.evaluateXPath("//a");  ),匹配http://baike.baidu.com/view/dddd.htm (dddd表示数字) 都是具体的词条。

 

   5)重复3和4可以抓取更多的词条。

 

   6)对抓取的词条估计有200w左右吧,再进一步筛选你认为优质的词条,估计也就70w左右吧。 当然还有很多不怎么常用的词条,估计用处也不大。

 

 

  

  • 大小: 15.6 KB
0
2
分享到:
评论

相关推荐

    百万级词库--分类词库

    因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...

    Mdcit词库--蜘蛛网疾病百科mdx

    《Mdcit词库——蜘蛛网疾病百科》是一款专门针对疾病知识的检索工具,它集成了丰富的医学术语和疾病信息,旨在帮助用户快速查询和理解各类疾病。该词库以“蜘蛛网”为形象比喻,寓意其内容广泛且相互关联,如同...

    中文同义词词库-同义词词库-access版本

    《中文同义词词库-Access版本》是一个专门用于处理中文同义词关系的数据资源,它采用Microsoft Access数据库格式,方便用户进行数据管理和查询。在自然语言处理(NLP)和文本挖掘领域,同义词词库是至关重要的工具,...

    中文综合分词词库2014-03-11

    《中文综合分词词库2014-03-11》是一个专门针对中文文本处理的重要资源,它主要用于中文分词任务。中文分词是自然语言处理(NLP)中的基础步骤,对于后续的语义理解、信息提取、情感分析等任务至关重要。词库在其中...

    极点6.5版_海峰【9.5】超大词库版-2009-07-11日制作.rar

    在这个特别的“9.5”超大词库版中,我们可以预见到开发者海峰对词库进行了大量的扩充和优化,以提供更全面的词汇选择和更高的输入效率。 首先,文件名中的“6.5版”指的是极点输入法的一个特定版本。通常,软件的...

    ubuntu-ibus-搜狗词库-非常全面-sougou-phrases-full.7z

    用于ubuntu等Linux, ibus框架的搜狗词库-非常全面 原始文件名:sougou-phrases-full.7z 运行以下命令: sudo add-apt-repository ppa:shawn-p-huang/ppa sudo apt-get update sudo apt-get dist-upgrade 下载词库 ...

    自然语言处理分词_公司名字词库Company-Shorter-Form(28W).txt

    随着互联网和信息的增长,新的公司不断涌现,这就要求分词系统能够不断更新和扩充其词库,以保持其准确性和有效性。而像这样的词库可以帮助分词系统快速适应语言的演变,提高对现实世界文本处理的能力。 使用这样...

    百度百科1-3000

    总之,《百度百科1-3000》MDict词库是一个集便捷、全面、深度于一体的中文知识库,无论对于学生、教师、专业工作者,还是对知识有着浓厚兴趣的普通读者,都是一个不容错过的资源。通过“百度百科1-3000条.mdx”文件...

    自然语言处理分词_拆字词库chaizi-jt.txt

    自然语言处理分词_拆字词库chaizi-jt.txt的核心价值在于它提供了一种标准化的汉字拆分方法,使得机器可以按照既定规则理解汉字的结构,从而在处理诸如文本挖掘、机器翻译、语音识别、情感分析等任务时,能够正确地...

    QQ五笔98版词库4-9-12万三个

    而随着词库规模的扩大,9万和12万词条的词库在覆盖更广泛的专业术语和生僻词汇上表现更优,对于经常需要处理专业文档或者需要快速输入复杂文字的用户来说,更大的词库能显著提高输入效率。 98版QQ五笔的词库设计...

    搜狗输入法-所有细胞词库-txt-不含词频-截止20200520

    搜狗输入法官网上的所有细胞词典,截止到2020年5月20号,并且转换为txt形式。有需要的同学自取。共11104个。 搜狗输入法官方词库地址:https://pinyin.sogou.com/dict/cate/index/1

    lingous词库 Chinese-English

    lingous词典的汉英词库 Langdao C-E Dictionary.ld2

    百万级词库--经过验证

    因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...

    [BetterRime词库]-NEW实用版V2.1.1

    【BetterRime词库】-NEW实用版V2.1.1是一款专为Rime输入法用户设计的词典更新,由贴吧用户imy0823精心制作并分享。这款词库旨在提升输入法的准确性和效率,提供更加丰富的词汇和更贴近现代语言习惯的输入体验。 ...

    QQ词典如何删除词库文件-.docx

    在使用过程中,用户可能会遇到需要删除或管理词库文件的情况,以优化软件性能或者根据个人需求定制查词体验。以下是关于如何删除QQ词典词库文件的详细步骤和相关知识点: 首先,我们可以通过两种主要方法来实现词库...

    ibus词库码表-98简码 (98沧海词库)

    《ibus词库码表——98简码与98沧海词库详解》 在中文输入法领域,ibus是一款广泛使用的开源输入框架,它支持多种输入法引擎,为用户提供便捷的汉字输入体验。本文将详细解析标题中的“ibus词库码表——98简码(98...

    搜狗词库-TXT版本.zip

    搜狗词库整理,不到2万个TXT文件,每个文件有若干词汇,一共大约3000W+的词汇,若想合并一个TXT,和通过:开始--运行--cmd--进入到文件夹--执行命令【type *.txt > d:\a.txt】。 全文检索拆词的较好选择

    自然语言处理分词_拆字词库chaizi-ft.txt

    第一个部分是拆分后的字或词的候选形式,第二个部分是该候选形式的详细描述,其中可能包含组合规则和笔画信息等。例如,“丁”和“一亅”之间有一个空格,“一”和“亅”分别是“丁”字可以拆分的两个部分。这样的...

    中文同义词词库 同义词 近义词 词库 Access版本 Excel版本.zip

    《中文同义词词库:理解与应用》 在自然语言处理和文本分析领域,同义词词库扮演着至关重要的角色。同义词是指在特定语境下具有相似或相同意义的词汇,它们能够丰富语言表达,提高文本多样性。本资源——"中文同义...

    百度中文分词词库

    "百度中文分词词库"是一个专门用于分词的资源,它包含了大量的词汇及其组合方式,为精确地将连续的汉字序列分割成具有语义意义的词语提供了基础。 首先,我们要理解什么是中文分词。由于中文句子没有明显的空格来...

Global site tag (gtag.js) - Google Analytics