下载维基百科wikipedia!

cloudeagle

浏览: 115678 次
性别:
来自: 合肥

最近访客更多访客>>

happy2012

qq623830938

JMS_Exception

pjntt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

转自: http://blog.sciencenet.cn/blog-453771-428323.html

Wikipedia（http://en.wikipedia.org/wiki/Main_Page）也就是维基百科是当前最有名的百科类网站，分门别类的以词条的方式详细介绍某个概念的历史、定义、发展和背景，大略来讲可以把它理解成为一本大词典。对于科研工作者而言，很多时候突然看到一个新的term，但是不明其意，或者理解它的含义，但不知道它属于哪个研究研究领域，和其他概念间有什么联系，这时wikipedia可以给你最好的介绍，并帮你在较短的时间内搭建起有关某个新领域学科的知识框架。当然有教材时，读书会学得更快，但很多新的研究方向早期都没有教材，更何况wikipedia包含的领域条目是如此之多之广。由于wikipedia多是由专家讨论编写，较普通搜索的介绍更具有权威性和可信性。最令人赞叹的是，wikipedia是免费的，向世界所有人无偿提供人类共同的知识宝库。

为什么要下载wikipedia？在线看不是挺好的么，而且下载的，没有图片（图片下载需要若干T），读起来乏味不少。可能下载有这些原因：对于知识的热爱、数据备份狂热症、对“局域网”无法访问wikipedia的担心（若干年前wikipedia就无法访问）、远离网络珍爱生命（上网总瞎转，浪费时间）但又舍不得网络的宝贵资源（如wikipedia）。好，言归正传，下面是使用方法：

1. 依据http://en.wikipedia.org/wiki/Wikipedia:Database_download找到最新版wikipedia的下载地址，
页面上说最新的完整版是2010年5月30日完成的一版，后面有更新的，据说未必完整（可似乎这个页面说明是很久以前的）。我们通过一个目录列表http://dumps.wikimedia.org/enwiki/看到所有英文的wiki数据库备份，以日期作为版本标识。本文选择http://dumps.wikimedia.org/enwiki/20101011/里面的，因为只需要下载一个文件且较新，比这个新的版本都需下多个文件。

2. 我们仅需要下载包含Articles, templates, image descriptions, and primary meta-pages的一个链接pages-articles.xml.bz2（实际下载文件enwiki-20101011-pages-articles.xml.bz2，6.2 GB），其他和wikipedia的更新历史、讨论有关的，我们这里都不需要，下载页面上给出的MD5校验值为7a4805475bba1599933b3acd5150bd4d。

3.同样的，中文的wikipedia的列表为http://dumps.wikimedia.org/zhwiki/，我们下载最新的http://dumps.wikimedia.org/zhwiki/20110322/页面里的链接pages-articles.xml.bz2（实际下载文件zhwiki-20110322-pages-articles.xml.bz2文件，497.8 MB），MD5值7c5f92b3465a3eb1ae9a769d0b39f5cb。

英文wikipedia阅读器：BzReader

4.下载阅读器bzReader(http://code.google.com/p/bzreader/页面左边BzReader.v1.0.13.msi)，下载的wikipedia文件说白了就是一个巨型xml文件，bzReader读取该文件并建立其中的条目索引，以后每次查询term，就可以直接看到。需要注意的是，bzReader的运行需要.net framework的支持(http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31，必须先安装.net framework 4（或低版本），然后再安装bzReader 1.0.13。

5.启动bzReader，选择菜单中的File-->Open，选中enwiki-20101011-pages-articles.xml.bz2，然后bzReader就开始建立索引，这个过程非常漫长，可能长达几个小时，所以这件事最好晚上让计算机自己忙活。

6.查询时，先启动bzReader，然后选择菜单中的File-->Open，选中enwiki-20101011-pages-articles.xml.bz2，这时就没有建立过程，可以直接使用了，在Search左边的框中输入词条，按回车键可以看到左边下边有个词条列表，单击选择个条目就可以阅览了。bzReader可以显示数学公式，但似乎表格无法正常显示，不知道谁有解决方法。另外，遗憾的是，对于中文等亚洲字体，bzReader似乎无法正常处理生成索引，因此中文wikipedia无法使用bzReader对付。

中文wikipedia阅读器：WikiTaxi

7.下载WikiTaxi(http://www.wikitaxi.org/delphi/doku.php/products/wikitaxi/index)，绿色软件，解压之后即可使用。

8.同bzReader的原理不一样，这个不是建立索引，而是重新编排生成一个新的.taxi文件，该文件可以脱离原始的.bz2文件使用。打开软件中的WikiTaxi_Importer.exe 引入刚下载好的中文维基zhwiki-20110322-pages-articles.xml.bz2，把它转化为.taxi文件，导出的文件名自己起。转换很快，对于500多M的源文件，大概10分钟就搞顶了，然后出现了一个900多M的.taxi文件。

9.启动WikiTaxi.exe，选择Options-->Open *.taxi database，选中刚生成的taxi文件就可以了。在上方Go左边输入需要查询的term,回车看看怎么样：）。

两者的比较

wikiTaxi的页面显示要比bzReader好很多，看起来更像源页面，但是其最大的致命点在于不支持数学公式显示，只能显示出一堆latex数学公式符号，而且由于不是生成索引文件，.taxi要比源文件还要大，对于英文的6.2G文件，俺就没有实验了，如果能解决数学公式问题，那以后就可以直接使用wikiTaxi了，毕竟显示好，并且绿色软件可以直接放到U盘里拿着到处走。

附记：
1. 在线wikipedia使用法之一：google: wiki term 或 wiki 词条
2.博士生应该学会使用英文的wikipedia，前些时日好像募捐1M$，创始人反复征求，过了一阵就搞定了，可见很多人对wikipedia的信赖。
3. 哪为大哥提供个好用的MD5检验工具，我下的没校检，但也成功建立索引了。

愿更多的人越来越用好wikipedia！

http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD

http://www.ituring.com.cn/article/1188 这个说的也不错!

分享到：

用户级线程和内核级线程 | 关于linux下mount和df查看挂载的区别

2014-05-18 17:16
浏览 540
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论