阅读更多

23顶
1踩

互联网

原创新闻 Google是如何搜集互联网信息

2010-10-22 12:26 by 见习编辑 jobbole 评论(21) 有10948人浏览

        如果你问别人什么是力量。培根会说“知识就是力量”,Google会说“信息就是力量”,某人会说“隐私就是力量”。毋庸置疑,Google早已认识 到信息(数据)的力量。相信其他公司,不管是互联网公司,还是其他类型公司,多多少少都应该意识到这一点了。否则,哪里会出现贩卖用户资料的案件?



  本文主要说Google如何搜集互联网信息、不计其数的趋势信息和Google用户(包括你我)的信息。

  那Google到底知道多少你的信息呢?还有你的在线习惯呢?请你坐下来,登录你的Google账号,看看你正在使用的Google服务列表,你就知道你正把多少信息交给了Google。


图2:登录Google账号后的“我的产品”
(注:此图中产品因人而异,只要你在登录Google账号时使用过某服务,则自动会添加到此列表中。)

这些服务已经引起了很多隐私问题。09年末时,Google CEO埃里克·施密特曾说过:“如果你有些东西不想让别人知道,或许你本该就别做那事。”(这话听起来颇似有点“切莫伸手,伸手必被抓”的韵味。)

  那我们现在就来看看Google是怎么搜集从你那收集你的信息。

  Google信息收集渠道

  Google的使命是:“整合全球信息,让人人可用,人人受益”。它也正在很好地兑现这个诺言。然而,Google正在收集的信息似乎比我们意识到的还要多。

  • 1. 搜索(网页、图片、新闻和博客等)- 众所周知,Google是全球最受欢迎的搜索引擎,其全球市场占有率几近70%(比如,美国本土占66%)。Google追踪所有的搜索,其现在的搜索方式也越加个性化,个性化势必将越来越细化。
  • 2. 搜索结果中的点击 - Google不仅能知道我们要找什么,它也知道我们点击了哪些搜索结果。(编者注:这个做SEO的朋友应该很清楚,可以从Google Analytics中知道。)
  • 3. 网页检索 - Google的网页爬虫Googlebot就是一只不知疲倦的小蜜蜂,一直不停地“品读”和收录数十亿的网页。
  • 4. 网站分析 - Google Analytics是目前最受欢迎的网站分析工具。因其免费并支持多种高级特性,全球大量网站正使用它。
  • 5. 广告服务 - Adwords和Adsense是Google财务成功的基石,但它们也给Google提供了大量的有价值的数据。网民点击了那些广告,广告主在竞争哪些关键字,哪些关键字最值钱等等。这些信息都是非常有用的。
  • 6. 电子邮件 - Gmail是全球三大电子邮件服务之一,面临着来自微软的Hotmail还有雅虎的Email的竞争。邮件内容,包括发送内容和接收内容,都是可以解析和 分析的。即使是从安全角度来看,这也是Google的一项优秀服务。Google的邮件安全服务——Postini,要从海量Gmail用户中,接收超大 量的数据,包括垃圾信息、恶意软件和邮件安全趋势数据。(编者注:2007年,Google以六亿二千五百万美元的价格收购网络安全服务商 Postini,以此为Google的小型商务客户提供更好的电子邮件安全服务。)
  • 7. Twitter - “你说有的Twitter消息都是我们的”,这句话用来解释早期的网络快速传播现象(又称“网络爆红现象”)。在09年和Twitter达成交易后,Google可以直接访问Twitter上所有的消息。
  • 8. Google应用服务(文档、电子表单和日历等) - Google的办公套件有很多用户,它当然也是Google的一个数据收集来源。
  • 9. Google公开的个人资料 - Google鼓励你把你的个人资料在网络上公开,这些资料包括你活跃在哪些社交网站(Facebook或Linkedin),你的个人主页和在线图片等等。
  • 10. Orkut - 虽然Google的社交网络还并不是很成功,但Orkut在巴西和印度还是有很多成功。(编者注:为什么还没有成功?可参见伯乐在线此文:《Google的社交网络为什么还没有成功》。)
  • 11. Google Public DNS - Google2009年年末推出的DNS服务并不只是帮助网民获得更快的DNA解析,也同时帮助Google自己。因为从这项服务中,Google可以获得大量的统计数据,比如网民访问了哪些网站。
  • 12. Chrome浏览器 - Chrome可以收集你的浏览器行为,还有访问哪些网站。
  • 13. Google财经 - 除了财经数据之外,用户在Google财经上搜索的信息和使用的信息都是Google的重要数据。
  • 14. YouTube - 这个目前是全球最大最受欢迎的视频网站,为Google所有。它也向Google提供了大量的用户观看习惯方面的数据。
  • 15. Google翻译 - 帮助Google完善其自然语言解析和翻译。
  • 16. Google Books - 虽然现在不是很庞大,但有潜力帮助Google知道网民阅读习惯和他们想阅读什么东西。
  • 17. Google阅读器 - 目前为止是全球最受欢迎的Feed阅读器。你订阅了哪些RSS种子?你在看哪些博文?Google会知道的。
  • 18. Feedburner - 很多博客都使用Feedburner来公开其RSS种子。Google追踪Feedburner的每一条链接。
  • 19. Google地图和 Google Earth - 你对哪些地方感兴趣?(Google也会知道的)
  • 20. 你的联系人网络 - 你在Gtalk和Gmail等上的联系,组成了一张错综复杂的用户网。如果他们都使用Google,网络映射更为深刻。虽然我们不知道Google是否做了这个,但这上面的数据是可以收集的。
  • 即将推出的 - Chrome OS等Google更多可能成功的产品。
  • 刚推出不久的 - 即时搜索和Goo.gl等服务
  • 已经消亡的 - Google Wave等(虽然消亡了,应该死前收集了一些数据吧。)


  因为Google的产品数不胜数,上面的列表还会扩大。到现在为止,你应该已经知道要点了。


图3:Google服务列表

(Google收集的)这些数据中,很多都是匿名化的,所以并非总是正确。日志可以保存9个月,服务相关的cookies可以保留18个月。即便如此,对大多数公司而言,Google手中所拥有的通用用户数据仍是有很大竞争优势,是一座名副其实的金山。


  Google - 一台无法停止的数据收集机器

  Google数据收集的方式有很多种。登录站点时生成的IP地址请求,用来设定和追踪目标的cookie。如果你登录了Google账户,你在Google下属网站上的一举一动,通常都可以和你个人账户联系起来,而不用和你的计算机对应起来。

  简而言之,如果你使用Google的服务,Google将知道你在搜索什么,你访问了什么网站,你看了哪些新闻和博客,等等。随着Google增加更多的服务,其曝光率将更加广泛,几乎一切东西都将所谓的“Google化”。

  编者注:Googlization即“Google化”,2003年由ohn Batelle和Alex Salkever共同创造这个字。

  你使用任何单一的Google服务所贡献的数据,你无需对此过多恼火。当你使用多个Google服务是,真正有趣的窘境才出现了。这个年头,谁不是呢?

  可以试着一个星期上网不用Google的任何一个服务。这也就是说,没有YouTube、没有Gmail、没有Google文档、不点击 Feedburner的链接、不用Google搜索引擎等等。严格来说,你甚至必须避开和Google有合作的服务,所以,非常抱歉,Twitter也不 能用、(编者注:不管你用不用梯子,YouTube和Twitter都别用)

  这个不断增长中的Google化可能就是为什么有些人不想用Google Chrome OS的缘故。因为Chrome OS可以强有力地整合Google的多种服务,并且很可能向Google提供关于你习惯的空前绝后数量级数据。


  Google为什么这么做呢?

  就像在本文一开始所提到,信息就是力量

  拥有这些信息,Google可以用非常有效的方式来整合数据。除了每个用户或访客,Google也能为整个城市或国家检测趋势和行为。

  Google收集的信息用途广泛。在Google所有活跃的领域,那些收集的数据可以用来制定市场决策、研究、完善产品等。

  比如,如果你能提前发现特定的市场趋势,你就可以对市场做出有效反应。如果你能发现人们所寻和所需,你就可以基于这些发现做出决策。当然了,这对像Google这样的大公司是极为有用的。

  而且我们也别忘了,Google的大部分收入来自广告。Google越了解你,其广告能更加有效地服务你,这也对Google的底线有着直接影响。


  不只是(谷)哥这么做

  必须要说的是,并非只有Google一家公司在做这样的数据收集。请放心,微软也在用Bing和Hotmail做相似的事,这只是一个例子。

  Google的问题(如果你想称之为“问题”)是,它像一只大章鱼,其触须正伸向各个角落。Google已变成如此混杂,囊括我们在线生活的方方面面,我们(网上的操作)动作、行为和关系等数量空前的信息都汇聚到Google手中。



图4:Google是章鱼?



  造访Google数据库

  值得称道的是,Google正通过各种服务来利用其收集的数据,进一步为你提供服务。

  • Google趋势
  • Google网站趋势
  • Google搜索解析
  • Google广告计划
  • 其他诸如Wonder Wheel这样的搜索工具


  如果Google能公布如此之多的数据,可以想象一下数据量有多大,还有Google所知道的细节程度有多深。而且这些服务也能向Google提供更多的数据,比如我们对哪些趋势感兴趣,我们在找哪些网站等。

  在使用Google趋势等这些工具的时候,发现一个有趣的现象:我们几乎可以知道一切,但就是无法知道Google自身的产品。比如,“Goolge广告计划”和“Google网站趋势”并不显示Google自身站点的信息,但你可以找到其他站点的信息。

  这个比较有讽刺意味!昨天“Goolge广告计划”更新2010年9月份的“全球Top1000网站”数据,你可以看到Facebook等网站的每月独立访客数量和PV数量,但你看不到Google旗下网站的数据。


  没有免费的午餐

  不知你有没有想过,为什么几乎Google所有服务都是免费的?好了,你现在知道答案了吧。还是那就老话:天下没有免费的午餐。你或许是没有给 Google掏钱(点击Google广告除外),但你已经付出信息了。虽然这并不一定是坏事,但你应该对此有所了解并加以注意。

  最后想问问哪位朋友知道非Google一类的公司是怎么搜集隐私的?哦,抱歉,说错了,是怎么搜集数据的。欢迎在评论中一起交流。



   本文来源:伯乐在线 - 职场博客
   本文链接:http://www.jobbole.com/entry.php/284

   Via:Pingdom   编译:伯乐在线 - 敏捷翻译组 - 关关

   欢迎转载,但请保留原文来源和原文超链接等版权信息,否则视为侵权!

来自: www.jobbole.com
23
1
评论 共 21 条 请登录后发表评论
21 楼 344812082 2010-10-26 17:46
asd[i][/i] :r坎坎坷
oll:    :idea: 
20 楼 sanfayin 2010-10-25 09:23
搜集又怎么样?你天天在路上走,总有人会注意你,你感到担心了吗?

人家至少有制约,不想XX没有制约的做任何事情

如果不愿意用,尽可以不用,google也拿你没办法,可是生活在天朝,你能不用那些服务吗?这就是不同。
19 楼 liushibo 2010-10-25 09:06
技术决定一切
18 楼 yanyan_zhl 2010-10-25 08:38
hueng512 写道
lkj107 写道
Google只是收集

电信运营商、医院、房地产等都是直接就卖了

天天有卖保险的给你打电话,就是他们干的

你刚生了小孩,就有人问你要不要保姆

刚买了车,就有人问你要不要保险

   

这帮人老盼着你出点事..
17 楼 wenxiang_tune 2010-10-24 12:57
我一直表示支持google
16 楼 geminiyellow 2010-10-24 10:32
章鱼的图看得我蛋疼菊紧
15 楼 jinchun1223 2010-10-24 09:01
KimHo 写道
让我联想到了腾讯,也是个大章鱼

14 楼 lantian_123 2010-10-23 16:54
很好,很强大
13 楼 铁血书生 2010-10-23 16:10
需要国内的云存储
12 楼 铁血书生 2010-10-23 16:03
lpali 写道
我都用了好多google的应用哦。只要对我的我的利益不上海还OK了,我的每天的工作日志,生活的相关记录都在谷歌日历上面呢,还有好多有价值的东西都放在google doc里面呢。。。呵呵


我还没有能力离开这个地方,还是这里的公民,如果将来这里变得象中东一样,我的生活肯定很糟
11 楼 tsw1107 2010-10-23 14:40
BI 写道
自从JAVAEYE被收购以后,新闻就是不一样了,f u c k!
说得没错
10 楼 lpali 2010-10-23 11:54
我都用了好多google的应用哦。只要对我的我的利益不上海还OK了,我的每天的工作日志,生活的相关记录都在谷歌日历上面呢,还有好多有价值的东西都放在google doc里面呢。。。呵呵
9 楼 沈冠军 2010-10-23 10:50
KimHo 写道
让我联想到了腾讯,也是个大章鱼

8 楼 铁血书生 2010-10-23 00:13
一个人的信息没有价值,但是很多人的信息......
呵呵,不被墙才怪呢,尤其是自己的技术还保护不了自己的时候
7 楼 wolf_awp 2010-10-22 17:03
hueng512 写道
lkj107 写道
Google只是收集

电信运营商、医院、房地产等都是直接就卖了

天天有卖保险的给你打电话,就是他们干的

你刚生了小孩,就有人问你要不要保姆

刚买了车,就有人问你要不要保险

   

   
6 楼 hueng512 2010-10-22 16:03
lkj107 写道
Google只是收集

电信运营商、医院、房地产等都是直接就卖了

天天有卖保险的给你打电话,就是他们干的

你刚生了小孩,就有人问你要不要保姆

刚买了车,就有人问你要不要保险

   
5 楼 EldonReturn 2010-10-22 15:44
个人信息安全确实是个非常重要的话题
4 楼 BI 2010-10-22 13:42
自从JAVAEYE被收购以后,新闻就是不一样了,f u c k!
3 楼 lkj107 2010-10-22 13:32
Google只是收集

电信运营商、医院、房地产等都是直接就卖了

天天有卖保险的给你打电话,就是他们干的

你刚生了小孩,就有人问你要不要保姆

刚买了车,就有人问你要不要保险
2 楼 wolf_awp 2010-10-22 13:08
怎么看的我有点冷啊?!

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 数据库insert语句中${}的处理

    数据库insert语句中${}的处理 1、Oracle处理有两种方式: 1、设置属性 set define off 2、将进行拆分拼接,{}进行拆分拼接,进行拆分拼接, || {} 2、MySQL处理 MySQL无define 属性,则只能将${}进行拆分拼接 concat(’$’, ‘{}’) ...

  • DB2将字符串转换成行的函数

    CREATE or replace FUNCTION MAST_DEV.F_SPLIT (p_str varchar(8000),p_split varchar(10)) RETURNS table( result varchar(250) ) SPECIFIC MAST_DEV.SQL201820135734427 NOT SECURED LANGUAGE SQL NOT DETERMINISTIC EXTERNAL ACTION READS SQL DATA INHERIT SPE.

  • 深入理解SQL模糊查询中的特殊字符处理——以DB2为例

    理解通配符的作用:在LIKE模式中,和有特殊含义。正确使用 ESCAPE:当需要匹配特殊字符时,使用ESCAPE子句来指定转义字符。选择适当的转义字符:确保转义字符在模式中不会引起混淆,通常使用不常用的字符。考虑数据库的差异:不同数据库可能有不同的默认行为,编写可移植的 SQL 时需注意。利用正则表达式:在需要复杂匹配时,正则表达式是一个强有力的工具。

  • linux db2密码特殊字符,教您如何在DB2数据库表中插入特殊字符

    在平时使用DB2数据库的时候,难免要在表的字段中插入特殊字符, 本文将为您介绍如何在DB2数据库的表中插入特殊字符,供您参考,希望对您能有所帮助,1. 插入字符 @# (單引號 )INSERT INTO DB2ADMIN.AAAA VALUES(@#@#@#@#);INSERT INTO DB2ADMIN.AAAA VALUES(@#A@#@#@#@#B@#);2. 插入字符 ~INSERT...

  • db2下名称中含特殊字符的schema名删除

    最近整理数据库的时候发现无意中多建立了一个schema,schema名为“ZD-PC”。因为不会用到,就想把它删掉。 在命令行中输入命令: db2 drop SCHEMA  ZD-PC  RESTRICT 时,删除的时候发现由于名称中含有“-”,导致删除出错。提示 SQL0104N  在 "drop SCHEMA ZD" 后面找到异常标记 "-"。预期标记可能包括:"."。 后来从网上查

  • linux db2密码特殊字符,DB2 创建包含特殊字符/小写字符的表名/列名

    C:\Documents and Settings\Administrator>db2 CREATE TABLE "DDS "."EMPLOYEE_HISTORY_T" ("WEEK_ENDING_DATE" DATE NOT NULL ,"S/N"CHAR(6) ,"NOTES_ID" VARCHAR(100) ,"ENGLISH_NAME" VARCHAR(100) ,"TEA...

  • DB2 通用函数汇总

    【1】去掉字符串中的特定字符 SELECT code,replace(replace(replace(replace(toba_name,'好评',''),'差评',''),'(',''),')','') AS name FROM biv_dim_result bdt 【2】多行数据合并为一行 --NAME是写死的,不用改 select n.questionid, n.leadid, r...

  • DB2数据库建表及插数据

    DB2数据库建表及插数据 一、建表  CREATE TABLE  DB2表名(     T_ID             bigint  primary key not null,      T_DECIMAL   decimal(10,5),     T_CHAR        char(20),     T_VARCHAR  varchar(20),     T_GRAPHIC

  • DB2字符类型简介

    DB2字符类型 DB2字符类型包括三个类型: 1、字符类型,字符类型有包括char、varchar、clob三种。 2、双字节graphic类型,包括graphic、vargraphic、dbclob三种。 3、二进制类型,包括blog 注意:这里只涉及到DB2 for luw,不包括iSeries,和zSeries。 数据类型 最大长度 -----------...

  • DB2 SQL/XML使用

    函数:XMLPARSE:解析字符或者大对象二进制数据,产生XMLXMLSERIALIZE:将XML值转换为字符或者大对象二进制数据XMLVALIDATE:根据XML schema校验XML值的有效性XMLEXISTS:检测XQuery是否返回结果(如由一个或多个项所组成的序列)XMLQUERY:执行一个XQuery并以一个序列返回结果XMLTABLE:执行一个XQuer

  • db2数据库字符

    今天发现一个问题,老是报字段太长,后来发现是因为db2数据库的varchar字段,一个汉字占用3个字符,不是2个字符

  • DB2 insert语句三种格式

    DB2 insert语句三种格式 ----start     有点SQL基础的人都会写INSERT语句,可是有很大一部分人不知道DB2的INSERT语句有三种格式,即:一次插入一行,一次插入多行和从SELECT语句中插入。考虑下面的情况: CREATE TABLE USER   (   NAME VARCHAR(20) NOT NULL,---姓名  

  • DB2 在表中插入特殊字符

    1. 插入字符 @# (單引號 ) INSERT INTO DB2ADMIN.AAAA VALUES(@#@#@#@#); INSERT INTO DB2ADMIN.AAAA VALUES(@#A@#@#@...

  • DB2使用特殊分隔符处理数据

    前几天接到一个需求,使用特殊的符号`|` 来作为字段分隔符,想了半天没搞定,后来在组长得指导下,查阅了项目之前的脚本才搞定了这件事。这给我的启示就是,当项目遇到奇怪的需求时,其实最好参阅以前的代码,因为这些问题很可能同事就已经遇到过了。一般像这种问题,网上是没有答案的。 首先我们看下db2导入导出数据的语法,也就是export,import,load的用法。 - export:作导出数据使用,...

  • DB2插入单引号 双引号的问题

    1. 如果是单引号, 则出现下面的错误:   db2 insert into sales(region) values(''')   DB21034E 该命令被当作 SQL   语句来处理,因为它不是有效的“命令行处理器”命令。在 SQL 处理期间,它返回:   SQL0010N 以 "''')" 开始的字符串常量没有字符串结束定界符。 SQLSTATE=42603

  • DB2插入引号字符的问题

     对于需要插入引号字符的问题,可以通过下面的方法解决:   1. 如果需要输入单引号,可以连续输入两个单引号, 则会插入一个单引号到表中, 第一个单引号会被作为转义符, 如:  db2 insert into sales(region) values()  则会插入一个单引号到字段region中。  db2 insert into sales(region) value

Global site tag (gtag.js) - Google Analytics