`
cloudeagle
  • 浏览: 112570 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论

下载维基百科wikipedia!

 
阅读更多

转自: http://blog.sciencenet.cn/blog-453771-428323.html

Wikipedia(http://en.wikipedia.org/wiki/Main_Page)也就是维基百科是当前最有名的百科类网站,分门别类的以词条的方式详细介绍某个概念的历史、定义、发展和背景,大略来讲可以把它理解成为一本大词典。对于科研工作者而言,很多时候突然看到一个新的term,但是不明其意,或者理解它的含义,但不知道它属于哪个研究研究领域,和其他概念间有什么联系,这时wikipedia可以给你最好的介绍,并帮你在较短的时间内搭建起有关某个新领域学科的知识框架。当然有教材时,读书会学得更快,但很多新的研究方向早期都没有教材,更何况wikipedia包含的领域条目是如此之多之广。由于wikipedia多是由专家讨论编写,较普通搜索的介绍更具有权威性和可信性。最令人赞叹的是,wikipedia是免费的,向世界所有人无偿提供人类共同的知识宝库。


为什么要下载wikipedia?在线看不是挺好的么,而且下载的,没有图片(图片下载需要若干T),读起来乏味不少。可能下载有这些原因:对于知识的热爱、数据备份狂热症、对“局域网”无法访问wikipedia的担心(若干年前wikipedia就无法访问)、远离网络珍爱生命(上网总瞎转,浪费时间)但又舍不得网络的宝贵资源(如wikipedia)。好,言归正传,下面是使用方法:


1. 依据http://en.wikipedia.org/wiki/Wikipedia:Database_download找到最新版wikipedia的下载地址,
页面上说最新的完整版是2010年5月30日完成的一版,后面有更新的,据说未必完整(可似乎这个页面说明是很久以前的)。我们通过一个目录列表http://dumps.wikimedia.org/enwiki/看到所有英文的wiki数据库备份,以日期作为版本标识。本文选择http://dumps.wikimedia.org/enwiki/20101011/里面的,因为只需要下载一个文件且较新,比这个新的版本都需下多个文件。

2. 我们仅需要下载包含Articles, templates, image descriptions, and primary meta-pages的一个链接pages-articles.xml.bz2(实际下载文件enwiki-20101011-pages-articles.xml.bz2,6.2 GB),其他和wikipedia的更新历史、讨论有关的,我们这里都不需要,下载页面上给出的MD5校验值为7a4805475bba1599933b3acd5150bd4d。

3.同样的,中文的wikipedia的列表为http://dumps.wikimedia.org/zhwiki/,我们下载最新的http://dumps.wikimedia.org/zhwiki/20110322/页面里的链接pages-articles.xml.bz2(实际下载文件zhwiki-20110322-pages-articles.xml.bz2文件,497.8 MB),MD5值7c5f92b3465a3eb1ae9a769d0b39f5cb。

英文wikipedia阅读器:BzReader

4.下载阅读器bzReader(http://code.google.com/p/bzreader/页面左边BzReader.v1.0.13.msi),下载的wikipedia文件说白了就是一个巨型xml文件,bzReader读取该文件并建立其中的条目索引,以后每次查询term,就可以直接看到。需要注意的是,bzReader的运行需要.net framework的支持(http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31,必须先安装.net framework 4(或低版本),然后再安装bzReader 1.0.13。

5.启动bzReader,选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,然后bzReader就开始建立索引,这个过程非常漫长,可能长达几个小时,所以这件事最好晚上让计算机自己忙活。

6.查询时,先启动bzReader,然后选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,这时就没有建立过程,可以直接使用了,在Search左边的框中输入词条,按回车键可以看到左边下边有个词条列表,单击选择个条目就可以阅览了。bzReader可以显示数学公式,但似乎表格无法正常显示,不知道谁有解决方法。另外,遗憾的是,对于中文等亚洲字体,bzReader似乎无法正常处理生成索引,因此中文wikipedia无法使用bzReader对付。


中文wikipedia阅读器:WikiTaxi

7.下载WikiTaxi(http://www.wikitaxi.org/delphi/doku.php/products/wikitaxi/index),绿色软件,解压之后即可使用。

8.同bzReader的原理不一样,这个不是建立索引,而是重新编排生成一个新的.taxi文件,该文件可以脱离原始的.bz2文件使用。打开软件中的WikiTaxi_Importer.exe 引入刚下载好的中文维基zhwiki-20110322-pages-articles.xml.bz2,把它转化为.taxi文件,导出的文件名自己起。 转换很快,对于500多M的源文件,大概10分钟就搞顶了,然后出现了一个900多M的.taxi文件。

9.启动WikiTaxi.exe,选择Options-->Open *.taxi database,选中刚生成的taxi文件就可以了。在上方Go左边输入需要查询的term,回车看看怎么样:)。

两者的比较

wikiTaxi的页面显示要比bzReader好很多,看起来更像源页面,但是其最大的致命点在于不支持数学公式显示,只能显示出一堆latex数学公式符号,而且由于不是生成索引文件,.taxi要比源文件还要大,对于英文的6.2G文件,俺就没有实验了,如果能解决数学公式问题,那以后就可以直接使用wikiTaxi了,毕竟显示好,并且绿色软件可以直接放到U盘里拿着到处走。

附记:
1. 在线wikipedia使用法之一:google: wiki term 或 wiki 词条
2.博士生应该学会使用英文的wikipedia,前些时日好像募捐1M$,创始人反复征求,过了一阵就搞定了,可见很多人对wikipedia的信赖。
3. 哪为大哥提供个好用的MD5检验工具,我下的没校检,但也成功建立索引了。

愿更多的人越来越用好wikipedia!


http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD

http://www.ituring.com.cn/article/1188 这个说的也不错!

分享到:
评论

相关推荐

    中文维基百科hosts文件

    中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用

    维基百科中文离线包2020-05

    维基百科中文离线包zim格式,wikipedia_zh_all_maxi_2020-05.zim,使用kiwi打开

    2021-2022年收藏的精品资料wikipedia维基百科综述.ppt

    2021-2022年收藏的精品资料维基百科综述 维基百科是当前流行的网络技术,在网站中的运用非常普遍。在这一类型的网站中,维基百科的规模和影响力都是最大的。维基百科的成功得益于其树立的品牌意识。除此之外,在...

    维基百科百科问答数据集

    《维基百科百科问答数据集》是一个专门为机器学习和自然语言处理任务设计的数据资源,它包含了大量的问答对,这些问题和答案都来源于广博且权威的维基百科平台。这个数据集是研究人员和开发者构建智能问答系统、信息...

    维基百科维基百科维基百科维基百科.txt

    网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接

    wikipedia_info.zip_数据集_维基百科网站_跨模态_跨模态图像_跨模态数据

    《wikipedia_info.zip数据集:探索维基百科中的跨模态研究》 在当今的计算机科学领域,跨模态数据处理是一项至关重要的技术,它涉及到将不同形式的信息,如文本和图像,整合在一起进行分析和理解。"wikipedia_info....

    wikipedia-client, 维基百科API的ruby 客户端.zip

    wikipedia-client, 维基百科API的ruby 客户端 维基百科 允许你通过他们的API获取维基百科内容。 它 将alpha API,不是过时的query.php API类型Wikipedia API参考:http://en.wikipedia.org/w/api.php来自:h

    英文维基百科语料库txt(8)

    《英文维基百科语料库txt(8)》是一份经过预处理的自然语言处理资源,主要用于人工智能领域的研究,特别是自然语言处理相关的任务。这份压缩包包含多个文本文件,如enwiki_71.txt到enwiki_80.txt,这些文件集合起来...

    英文维基百科语料库txt(7)

    《英文维基百科语料库txt(7):自然语言处理与人工智能的基石》 英文维基百科语料库是自然语言处理(NLP)领域的重要资源,它为研究者和开发者提供了丰富的文本数据,用于训练和测试各种算法。这份压缩包包含了一...

    524MB中文维基百科语料pleisto-json.zip

    524MB中文维基百科语料链接:https://huggingface.co/datasets/pleisto/wikipedia-cn-20230720-filtered 参考这个博客链接进行使用:...

    维基百科api调用实例

    **维基百科API调用实例** 维基百科是全球最大的在线百科全书,提供丰富的信息资源,其API(Application Programming Interface)允许开发者通过编程方式获取和处理这些信息。本实例将探讨如何使用Java的`httpclient...

    iOS维基百科客户端wikipedia-ios.zip

    wikipedia-ios 是运行在 iOS 系统上的官方版维基百科客户端。 标签:wikipedia

    iphone/itouch上的offline wikipedia (离线的维基百科) server

    iphone/itouch上的offline wikipedia (离线的维基百科), 这个是服务器版。 不用多说了。 安装和离线数据包制作参考: http://blog.csdn.net/davidullua

    wikipedia-tools-for-google-spreadsheets, 用于Google电子表格—文档的维基百科工具.zip

    wikipedia-tools-for-google-spreadsheets, 用于Google电子表格—文档的维基百科工具 用于Google电子表格的维基百科工具Google电子表格 add-on makes working Wikipedia Wikipedia Wikipedia Wikipedia Wikipedia ...

    仿维基百科源代码,感觉不错

    仿维基百科源代码,感觉不错找了好久才找到的

    wikipedia维基百科综述.ppt

    wikipedia维基百科综述.ppt

    维基百科中文预训练数据

    标题中的“维基百科中文预训练数据”是指一组专门用于训练自然语言处理模型的数据集,这个数据集来源于中文维基百科。预训练是机器学习领域的一个关键步骤,它允许模型在大规模无标注文本上学习通用的语言表示,为...

    维基百科iOS

    解压后的`wikipedia-ios-develop 2`文件可能包含了维基百科iOS版的源代码或开发资源,这对于开发者来说是一份宝贵的参考资料。开发者可以通过研究这些文件来了解如何构建类似的应用,或者对现有应用进行定制和改进。...

    维基百科代码

    **维基百科代码详解** 维基百科,作为全球最大的在线百科全书,其背后的基础设施是MediaWiki,一个开源、免费的wiki软件系统。MediaWiki是由PHP编程语言编写的,这使得它具有高度的可定制性和扩展性,能够支持大...

    wtf_wikipedia, wikipedia的维基百科标记解析器.zip

    wtf_wikipedia, wikipedia的维基百科标记解析器 然而,维基百科标记解析器 Kelly Kelly和许多贡献者把维基标记变成 JSON,这样获得的数据就变得更容易了。我不生气,对他们生气。解析wikiscript基本上是 np 。它的真...

Global site tag (gtag.js) - Google Analytics