`
Blackbaby
  • 浏览: 184900 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Google用户数据采集揭秘

阅读更多

摘要: SEMWatch 的特约评论员谢永钱,来为大家揭秘 Google 对用户进行数据采集的详细情况。 点击跟踪 Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。 形式 -随着用户输入数据的形式直接进入(用户名,密码…

点击跟踪

Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。

形式 -随着用户输入数据的形式直接进入(用户名,密码等),Google 记录了时间和日期以及提交的位置。

注册 Google 帐号时的表单

  1. 输入类型是隐藏的,使用户不会看到或进入特定领域的数据
  2. 向用户发送后提交 (隐藏) 的位置
  3. 输入类型是隐藏的,所以用户不会看到或进入到特定数据里头。
  4. 用户使用引用数据,并通过表格获得怎样才把”注册”放在什么位置用户会点击

Cookies

Google 把它所有网站属性的 Cookie 都用上了,此外,他还留下了广告 Cookie 来跟踪用户在网站上的行为。通过这种方法,Google 就可以在有 doubleclick 和AdSense 广告的网站下跟踪该网站上任何一个用户的网站行为。

存储的cookies列表

存储在日志文件的服务器请求

每一个向 Google 服务器发出的请求都存储在日志文件里头,而存储的内容取决于发出请求的类型。

日志文件

URL – http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8

  1. 从用户付出的请求而获得的 IP 地址,可以根据这个IP 地址定位该用户的具体地理位置。
  2. 日期,时间和时区偏移的用户
  3. 用户的语言
  4. 用户的操作系统
  5. 用户的浏览器
  6. 其他信息就没有那么重要但是必须具体的描述向服务器发出的请求,服务器的响应和转译引擎。

Javascript

Google 有小部分的 JavaScript 已经嵌入到互联网上众多的网站上面。当用户的浏览器执行背景中的脚本时候,Google 就能够知道很多关于这个用户浏览习惯等重要信息(地理位置,操作系统,浏览器类型和版本等)

网站信标

Google 向很多结算屏幕嵌入小尺寸的透明 gif 图片,就好像 JavaScript 一样,一个用户下载隐形的图片并且向 Google 发送他们的电脑信息。

网站信标样例(什么?你看不到?这才是重点)

了解一下 Google 是怎样处理这些数据

存储

Google 使用一个内部数据库叫 BigTable 扩展到近乎 100W 个服务器

Google Data In 2006
Data Size (TB)
Crawl Index 800
Google Analytics 200
Google Base 2
Google Earth 70
Orkut 9
Personalized Search 4

(Source: Bigtable: A Distributed Storage System for Structured Data)

这压缩的数据的大小接近 TB(1024GB)。而 Google 透露的数据大小超过 1PB(1048576GB)。这甚至不需要考虑 AdSense,Gmail,Google Map,街景,Google图片,或者其他私有数据库。并且这些数据都是超过2年前的。

大量的数据分析

这就有点像 Charlie and the Chocolate Factory (电影《查理与巧克力工厂》)。我们都知道有很多数据都进入到 Google 那里,我们也知道有大量处理好的数据会导出来。我们就只是不知道两者之间是发生了什么,是怎么转换的。

我们也知道 Google 本身有很多运算法则组织他的数据,Page Rank 就是最出名的了。据说,Google 也有很多复杂的 spam 的过滤系统,内容复制过滤系统,类型侦查运算法则,自然语言解析程序,图像识别软件,和其他大量的复杂的软件。

永久备份

Google 上的数据最终的栖息地可能会在永久存储。Google 的隐私政策提示某些用户数据永远都不会完全被删除,因为已经被永久的备份。

理解Google收集特定用户的数据情况

以下都是一些当用户与很多网站交互的时候 Google 收集到的用户的资料的清单列表。这意味着其实有更多的数据被 Google 收集而却又没有公开的。不过其实无知就是幸福,当你看完之后,你或许会感觉很不爽:

Google用户数据收集情况汇总(以下内容过长,可直接下载阅读)

Cookies 和日志都是 Google用来跟踪用户的方法

Google(一般搜索)

  • 搜索引擎结果页面
  • 国家代码域名
  • 查询
  • IP地址
  • 语言
  • 结果的数量
  • 安全搜索
  • 附加的参数包括:
    • 街道地址
    • 城市
    • 邮政编码
  • 服务器日志
    • 查询
    • URL
    • IP地址
    • Cookie
    • 浏览器
    • 日期
    • 时间
  • 点击

Google 的个性化搜索

  • 每个被网站访问日志作为一个谷歌搜索结果
  • 被访问网站的内容分析

Google 账号

  • 作为收集独立个人用户信息的资源
  • 注册
    • 注册日期
    • 用户名
    • 密码
    • 备用电子邮件
    • 定位(国家)
  • 个人照片
  • 使用
    • 朋友
    • Google 服务使用
    • 登陆的次数

Toolbar

  • 全部被访问的网站
  • 唯一应用数量
  • 发送访问 404 页面信息给 Google
  • 工具栏同步功能
    • 用 Google 账号存储自动填写信息
    • 发送网站的结构形式信息给 Google
  • 安全浏览
    • 存储响应到安全警告
  • 存储自动填写数据
  • 拼写检查将数据发送到谷歌服务器

网站历史

  • Every website visited from Google SERP
  • 日期
  • 时间
  • 搜索查询
  • 广告点击
  • 服务种类

翻译

• 发送到 Google 服务器的文本内容

Google财经

  • 股票投资组合
    • 用户的股票
    • 股份的数量
    • 日期/时间的购买
    • 购买的价格

Google Checkout

  • 购买者
    • 充分的法律名称
    • 信用与数字
    • 卡到期的日期
    • 卡的审核编号(CVN)
  • 账单地址
  • 电话号码
  • 邮件地址
  • 销售者
  • 银行账号
  • 个人地址
  • 商业目录
    • 政府颁发的身份证号码
    • 社会安全号码
    • 纳税人身份证号码

销售容量

  • 交易量
  • 来自 Dun&Bradstreet 的商业数据
  • 交易
    • 数量
    • 产品描述
    • 销售者名称
    • 购买者名称
    • 支付使用的类型
  • 用户趋势数据
  • 网站信标
  • 推介数据

Youtube

  • Youtube SERP的数据
  • 注册用户数据
  • 上传的视频
  • 发表的评论
  • 视频标记
  • 订阅
  • 频道
  • 群组
  • 最爱
  • 联系
  • 已看的视频
  • 频繁的数据转换
  • 数据转换的大小
  • 点击位置数据
  • 信息陈列数据
  • 电子邮件
  • 跟踪网站信标
    • 打开或者摒弃的邮件
    • 基础账户
  • EMAIL
  • 密码
  • 用户名
  • 位置
  • 邮编
  • 生日日期
  • 性别

Gmail

存储,过程,维护全部信息

账户行为

  • 存储使用情况
  • 登陆的次数
  • 显示的数据
  • 点击的链接
  • 存储所有电子邮件
  • 联系人列表
  • 垃圾邮件趋势
  • Gtalk 聊天记录
    • 所有的对话和涉及到的人
    • 使用服务的时候
    • 联系列表的大小
    • 联系沟通
      • 频繁的数据转换
      • 数据转换的大小
      • 点击

Google Calendar

  • 姓名
  • 默认语言
  • 时区
  • 使用策略
    • 服务使用时间长度
    • 数据转移频率
    • 数据转移大小
    • 事件数量
    • 日历数量
    • 点击
    • 每90天删除情况
  • 所有事件
    • 参加者
    • 被邀请者
    • 评价
    • 描述
    • 日期
    • 时间

iGoogle

  • Cookies中存储的设定
  • 帐号联系的设定

Blogger

  • 用户照片
  • 生日
  • 位置
  • 数据传送频率
  • 数据传送大小
  • 点击
  • 移动博客
    • 号码
    • 捆绑的 Google 帐号
    • 设备标识符
    • 硬件标识符

Google Docs

  • E-mail 地址
  • 登陆数量
  • 行为记录
  • 存储内容使用
  • 点击
  • 所有协同合作者
  • 所有文本
  • 所有图片
  • 所有改变

Groups

  • E-mail密码
  • 帖子内容
  • 自定义页面内容
  • 外部存储内容
  • 帐号活动
    • 所加入的 Groups 情况
    • 所管理的 Groups 情况
    • 成员列表
    • 被邀请者列表
    • 等级情况
    • 首选设定

Picasa

朋友图片

最喜爱的列表

点击(几乎所有 Google 服务都跟踪点击)

  • 所有照片
  • geotags (Exif data)
  • 订阅照片者信息

Mobile

  • 电话号码
  • 设备种类
  • 响应类型
  • 携带者
  • 携带着ID
  • 响应内容
  • Mobile地图
    • 地理位置信息 (GPS)
    • 地址
  • 用户查询后的目标网站信息
  • 声音指令

Web 加速

  • Web响应
  • 缓存

Double Click/Adwords

  • 广告点击
  • 年龄
  • 性别
  • 位置
  • 被访问网站趋势
  • IP 地址

Notebook

  • 存储、处理和维护
    • 所有内容
    • 昵称
    • 存储使用情况
    • 登陆次数

以下没有单独隐私说明的服务(说明直接采集数据了)

网站管理员工具

  • Google Analytics
  • AdWords
  • AdSense
  • Alerts
  • Reader
  • Earth
  • FeedBurner (技术上说有一个隐私说明,但基本没用)

垂直搜索

  • 图片搜索
  • 地图搜索
  • 博客搜索
  • 图书搜索
  • 新闻搜索
  • 专利搜索
  • 产品搜索
  • 学者搜索
  • 特殊搜索
  • 视频搜索
  • 代码搜索
来源:http://semwatch.org/2009/11/evil-of-google-data
分享到:
评论

相关推荐

    GoogleEarth高程数据采集工具2014.rar

    综上所述,"GoogleEarth高程数据采集工具2014"是一个功能强大的工具,能够帮助用户从谷歌地球上获取精确的高程数据,广泛应用于各种地理信息系统项目。理解并掌握相关知识,对于有效地利用这类工具是十分必要的。

    GoogleEarth高程数据采集工具

    比如,用户可使用该软件将自动采集到的高程数据生成南方CASS格式的数据文件,然后在CASS中建立DTM三角网、生成地形等高线。 功能特点: 直接得到高斯投影平面坐标,无须再进行投影变换。 具有自动采点功能。自动采...

    Chrome浏览器插件-专注于淘宝数据采集.zip

    Chrome浏览器插件是一种扩展程序,可以增强和定制Google Chrome的功能,使其更加符合用户特定的需求。在本案例中,"Chrome浏览器插件-专注于淘宝数据采集.zip" 是一个专门用于淘宝平台的数据采集工具。这个压缩包...

    GPS数据采集程序下载

    6. **地图集成**:与流行的在线地图服务(如Google Maps、OpenStreetMap)集成,允许用户在地图上直观地查看和分析采集到的GPS轨迹。 7. **导出与分享**:数据采集程序通常提供导出功能,将收集到的数据转换为其他...

    android GPS 数据采集源码

    在Android平台上,GPS数据采集是移动应用开发中的一个重要环节,特别是在构建导航、健身或地理位置相关应用时。这个"android GPS 数据采集源码"提供了一个基础框架,帮助开发者了解如何实现GPS数据的实时获取和处理...

    GoogleEarth高程数据采集

    **Google Earth高程数据采集详解** Google Earth是一款强大的地理信息系统软件,它提供了全球范围内的卫星图像、地形数据和三维地球视图。对于IT行业,尤其是地理信息系统(GIS)的从业者和爱好者,利用Google ...

    电子商务数据分析概论模块二-数据采集与处理的方案制定1.ppt

    电子商务数据采集渠道多样,包括但不限于网站日志、用户行为跟踪、社交媒体、交易数据等。选择合适的工具至关重要,例如Google Analytics用于网站流量分析,CRM系统用于客户关系管理,以及各种专门的电子商务数据...

    Vue 前端数据采集插件,前端异常数据采集插件.zip

    数据采集是指从各种数据源中收集信息的过程,这些信息可以包括用户行为、系统日志、错误报告等。在前端应用中,数据采集通常涉及跟踪用户交互、页面加载时间、API请求状态等。 在Vue-dataAc-master项目中,我们可以...

    谷歌插件开发,用于淘宝的数据采集.zip

    谷歌插件开发用于淘宝的数据采集,为我们提供了一种高效且灵活的方式来获取在线商店的各类信息,这些信息可以用于市场分析、商品比价、销售策略制定等多种用途。本文将深入探讨这个主题,解析相关知识点。 首先,...

    百度Google多功能采集

    【标题】:“百度Google多功能采集”指的是一个工具或软件,其主要功能是针对百度和Google这两个全球知名的搜索引擎进行数据采集。这种工具通常被用于市场研究、SEO优化、竞争对手分析等多种目的,通过自动化的方式...

    室外机数据采集.zip

    在IT行业中,数据采集是一项至关重要的任务,尤其在智能家居领域,它涉及到实时监控、设备管理以及用户行为分析等多个方面。"室外机数据采集.zip"这个压缩包文件很可能包含了一套完整的数据采集系统,用于从智能家居...

    基于用户行为的Web使用挖掘数据采集技术研究.pdf

    - 数据采集:这是整个挖掘流程的起点,涵盖了服务器日志分析、客户端脚本监控用户行为、以及可能的第三方服务集成(如Google Analytics)。 - 数据处理:此阶段包括数据清洗、去重、异常值处理,以及将原始数据转换...

    web 前端数据采集埋点 .zip

    5. **数据分析**:通过数据可视化工具,如Google Analytics、Amplitude或自建的数据平台,对收集的数据进行深度分析,揭示用户行为模式,指导产品改进和业务决策。 6. **隐私保护**:在整个过程中,必须严格遵守...

    交通道路网数据采集.pdf

    道路网数据采集的来源可以来自互联网地图(如百度地图、Google Earth),数据形式为矢量化的道路中心线,形成网格数据存储。道路网数据采集的技术要求包括: 1. 道路中心线:道路中心线是道路网数据采集的基础,...

    python web数据采集显示

    在IT行业中,Python是一种广泛应用的编程语言,尤其在Web数据采集和分析方面表现突出。本项目专注于使用Python进行Web数据采集并借助matplotlib库进行数据显示。下面将详细解释这些知识点。 1. **Python Web数据...

    全球定位系统GPS数据采集程序

    4. **多线程编程**:为了实现实时数据采集和处理,可能需要创建多个线程,其中一个负责接收GPS数据,另一个负责解析和更新用户界面。多线程编程需要确保线程安全,避免数据竞争和死锁。 5. **图形用户界面(GUI)...

    安卓版GIS数据采集系统软件下载及使用说明

    4. **数据编辑与管理**:系统通常提供数据编辑工具,允许用户修改已采集的信息,以及导出、导入数据至其他GIS软件或数据库。 5. **报表生成**:根据采集的数据,用户可以生成各种图表和报告,便于分析和决策。 6. ...

    数据采集和数据输出.zip

    在IT行业中,数据采集与数据输出是至关重要的环节,尤其在大数据分析、机器学习和人工智能等领域。本项目“数据采集和数据输出.zip”显然聚焦于这两个核心任务,并使用了Go语言进行开发。Go语言,也被称为Golang,是...

Global site tag (gtag.js) - Google Analytics