GOOGLE闹的沸沸扬扬的过程中,一切似乎越来越向着大家传闻中的那个阴谋论的方向发展,以GFW的效率,这么久还没把不过滤关键词的GOOGLE封锁掉很费解。而更令人费解的是,1月14号凌晨3-5点之间,GOOGLE又重新开始过滤关键词,如关键词“纳”的搜索,已经搜不出什么特别敏感的资料了。
而在这个过程之中,除了一个可笑的“七成中国受访网民认为政府不应向谷歌让步”之外,也没有看到其他政府部门的动作。这一直让人觉得匪夷所思。你可以不喜欢他们,但是千万别以为天朝政府负责危机公关的人都是饭桶。
然后我们来聊聊维基百科。
维基是一个忠实的记录者,它记录了所有6次封锁,而实际上维基百科真正解封是获益于08年奥运会。
维基百科和GOOGLE很像,都是全球前十大网站之一(目前alex排名前十:google facebook
youtube yahoo live wikipedia Blogger Baidu msn yahoo日本),都不在中国设服务器都在中国遇到封锁和百度。
不同点在于,GOOGLE是一家上市公司,而维基百科则是NGO,虽然经历了漫长的封锁和严重的压抑维基百科从来没有退缩过,他依然保持着非常原教旨的维基百科的样子,不审查内容,不屏蔽任何词条(连XXX内容也不例外),靠捐款维持生存,没有任何广告,而GOOGLE则一直在寻求在不破坏自己原则的基础上和中国政府合作。
维基百科和GOOGLE都有全中国最优秀的用户群体,搜索引擎是最不容易产生用户粘性的网站模式,但是调查显示GOOGLE有着最好的品牌忠诚度。GOOGLE旗下的很多服务都让人惊叹,比如GMAIL,GOOGLE EARTH,GOOGLE浏览器,picasa。实际上对于一家上市公司而言,GFW对其的很多屏蔽措施实际上完全可以认为是一种贸易壁垒行为。维基百科也有着极强的用户粘性,在漫长的封锁期间不少网民自发的爬墙头也要去编写维基百科。但是因为维基百科对一些高质量条目的要求几乎高过内地大学对某些课程论文的要求,所以维基百科在条目数量覆盖面上远不如可以随手复制粘贴一篇文章进去的百度百科。类似十大神兽这样的百度百科条目,让本身严肃的百科全书变成了一个笑话。实际上留在维基百科的很多人,都明白维基百科每一个观点都需要来源支持的书写模式。这种模式保证了危机百科内容上的中立和可靠,让维基百科所提供的内容在所有WEB2.0网站中最为严谨。也保证了它积累知识的原本目的能够顺利达到。
而不管是改变中国人上网浏览习惯的GOOGLE还是让用户一点点严谨起来的维基百科,都有着中国最好的用户群体。但是这个用户群体毕竟是少数,GOOGLE是上市公司,其市场占有率约20%。而维基百科更是一个少数派,在最近,其活跃用户数量(每周编辑超过50次的维基人)还不到100人(本列表中包含BOT的是机器人),参与过10次编辑的维基人一共才1.8w人,就这么大点的群体,写出了29万个维基百科条目。可见其用户精英化程度之高。
但是实际上中国很多事情不是你优秀就能做好的,比如GOOGLE,它在中国的收入仅仅占其全球市场收入的1%。虽然中文使用人数全球第一,但是在维基百科条目数量上它仅仅排名第12位,排在中文前后的,是瑞典语,挪威语(你听过这俩语种么?)
这些网站在中国做不好的原因是多方面的。
首先是来自政府的原因:大家对那个荒诞的“七成中国受访网民认为政府不应向谷歌让步”可能还有印象,但是实际上事情可能还糟糕的多,比如通过舆论制造一种氛围,支持wikipedia还是百度百科?绝大多数人会选择本土化更好的,覆盖面更广的百度百科,于是封锁wikipedia似乎就是合理的了,然而这就是一个典型的多数人的暴政,为什么我们不可以两者都用?GOOGLE也面临着一样的问题,GOOGLE的很多服务,比如Igoogle的数据都是储存在本地COOKIE中,他们不希望储存客户的数据——因为在中国他们没办法保证这些数据的安全。作为世界上最大的搜索引擎,GOOGLE肯定比所有人都更明白在中国设立本土服务器的重要性,但是GOOGLE拒绝这么做。但是GOOGLE终究是上市公司,追逐利润还是必须的,所以它必须考虑去适应中国环境,遵守中国法律。但是有人问的好,如果法律本身就是恶法,如何让GOOGLE的不作恶和遵守法律本身不冲突?
另外是GFW的功劳,GOOGLE的很多业务如youtube,picasa,GOOGLE的博客,都遭到GFW的封锁,这在中国本土司空见惯,由于一系列可以创造粘性很强的用户的服务被GFW阻挡,GOOGLE在用户增长上很慢,但是我们可以看到的是,GOOGLE虽然增长速度不高,但是每年都在稳步的保持着市场份额和用户数量的稳定增长。同样,维基百科也遇到一样的问题,由于严重的封锁,维基的发展也受到巨大的限制——维基百科在解除封锁之前每天增加的条目数量大概在100-200之间,而维基百科解封之后,平均每天增加条目数量则都超过了200。另外,网络封锁使得维基百科的用户中大部分是港台用户,这让我们在很多观点的表达上非常不利(如汉字简化等。)
当然,本土化不够也是这些国外网站很大的一个弊病,以FACEBOOK为例,整体偏向简洁的界面让很多中国用户找不到合适的功能在那里,而GOOGLE也在这方面遇到了一些问题,最典型的是GOOGLE的浏览器与中国本土的遨游相比,在浏览习惯上就会相差很远,如果不是GOOGLE强大的技术实力赋予chorme良好的运行效率,可能笔者都不会选择它。
本土化最差劲的可能要数维基百科了,作为完全原教旨的维基百科,它不允许任何从外部网站转载的文字进入维基百科,任何上传的图片都要确认版权许可,这在几乎完全没有版权观念的大陆互联网上,几乎是不可想象的。然而,维基百科还是这么坚强的存在了下来。(i'm
so pride of that)
如果我们把视野放的更大,我们会发现,在一些先进的领域中,原本落后的国家是得向先进国家学习,在网络方面,本土化,和外来先进网站的模式之间的矛盾仍将继续,作为一个延续了千年的文明,我们有及其保守的传统。引进并且改变的模式将会在中国继续发展下去,GOOGLE和百度的矛盾,wikipedia和百度百科的矛盾将继续下去。然而在这个过程中,政府及GFW所扮演的角色将决定我们在追赶先进的文明的速度。
分享到:
相关推荐
在这一类型的网站中,维基百科的规模和影响力都是最大的。维基百科的成功得益于其树立的品牌意识。除此之外,在运营的过程中,品牌的维护也是非常重要的。维基百科未来的发展方向也很值得关注。 维基百科是一部自由...
加之,维基百科经常被墙,在我们天朝是经常进不去的。最近简体中文版维基百科可以进入,但是在线看总是觉得不如下下来看舒服。 因此,我们可以下载维基百科的内容, offline阅读。下载维基百科的数据库可以从官网上...
中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用
维基百科离线版 一个为了方便本地浏览维基百科查询资料而制作的 开源软件...通过本程序你可以自己在内网架设一个维基百科服务器,同一WiFi下的电脑和手机都可以通过输入显示的IP地址访问,从而实现离线维基百科的目的。
标题中的“英文维基百科语料库txt(9)”指的是一个包含多个英文维基百科文本数据的压缩包,这些数据经过一系列预处理步骤,包括分词、去停用词、转换为小写、词干提取和词形还原,使得它们更适合用于自然语言处理...
《维基百科百科问答数据集》是一个专门为机器学习和自然语言处理任务设计的数据资源,它包含了大量的问答对,这些问题和答案都来源于广博且权威的维基百科平台。这个数据集是研究人员和开发者构建智能问答系统、信息...
维基百科类目层次结构提取是一项重要的数据挖掘任务,它涉及到对维基百科庞大的信息库进行有组织的、结构化的访问。在这个过程中,我们可以利用HTMLParser这个Java库来解析HTML文档,提取出维基百科页面中的类目链接...
总之,《英文维基百科语料库txt(5)》是研究者和开发者进行NLP和AI研究的宝贵资源,其经过的预处理步骤显著提升了数据的质量和可用性,使得数据更适合进行深度分析和建模。无论是学术研究还是商业应用,这个语料库...
通过深入挖掘和分析这些数据,我们可以揭示维基百科背后的集体智慧模式,以及知识共享和协作的社会动态。同时,这也对数据库管理、SQL查询和数据分析技术提出了高要求,挑战着我们在大数据时代的数据处理能力。
维基百科中文离线包zim格式,wikipedia_zh_all_maxi_2020-05.zim,使用kiwi打开
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存...
英文维基百科语料库是自然语言处理(NLP)领域的重要资源,它为研究者和开发者提供了丰富的文本数据,用于训练和测试各种算法。这份压缩包包含了一系列经过预处理的文本文件,如enwiki_61.txt至enwiki_67.txt等,...
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人...
网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
作为一种概率分布,正态分布具有独特的数学特征,并且在各种科学和工程问题中扮演着核心角色。正态分布以德国数学家卡尔·弗里德里希·高斯的名字命名,因此也称作高斯分布。 正态分布的概率密度函数呈现为对称的...
综上所述,通过Java的`httpclient`和`htmlparser`,我们可以实现对维基百科API的有效调用和数据解析,从而在各种应用程序中利用其丰富的信息资源。在实践中,应关注API的使用规范和限制,确保高效且合法地获取和利用...
维基百科 for google g1 network search
仿维基百科源代码,感觉不错找了好久才找到的