`
txswei
  • 浏览: 128647 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

数据之美 百度GOOGLE统计的秘密

阅读更多
    3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。

  07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如果统计了用户鼠标行为的轨迹分析,足够分析访问百度和Google用户群体的人口统计学方面的信息,比如:访客的性别、年纪等等。笔者所在的公司一直致力于数据挖掘课题的研究,深知如果一定程度上对用户鼠标行为进行分析的话,只要找到准确的算法,是可以很明显的分辨出男性和女性在浏览同一个网页时所表现出的不同的习惯特征。这是所有基于数据行为做识别的人的共识。
 
    百度和GOOGLE在互联网上,具备绝对的优势,他们甚至可以统计和分析用户的鼠标行为特点(如上图)。对于普通的站长,很明显,这些前沿的统计数据几乎无法从传统统计器中获得,捕捉到用户在某网页上的点击事件也许并不是一个很难的事情,但是如果是要获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹,就不是件容易的事情了,尤其是对用户鼠标滑动轨迹的分析,这个更不是一般的统计系统可以做到的,这些滑动轨迹几乎是一个天文数据,分析这些需要极其强大的计算能力,并非国内一个个人统计系统计算能力可以达到的。

  目前国内的统计市场,新的入伙人有百度、雅虎,还有一个一直在中国统计器市场名不见声响的GOOGLE,这些巨无霸也都试图瓜分这个市场,他们的意图很明显,建立一个服务于自己的体系,同时利用庞大的个人站点获取大量的用户行为特征。传统的个人网站统计,目前也是三分天下。但是笔者无意中看到的一张图,让笔者不得不再次审视这个似乎已经各自为政,三分天下的统计领域。

   下图是笔者无意中获得的一张用户行为分析图,竟然是国内某家并不知名的小个人站点上的数据,笔者在这个小小的美女图片站上发现了一行陌生的统计代码,这个代码的链接很明显的反应出另一个似乎也是统计类的站点,但是很郁闷的是,笔者顺着这个链接,并没有找到这个站点的任何资料,似乎这个站点刻意的隐藏了自己。出于本身的职业习惯,后来笔者找到了这个小站站长的QQ,后来在和这个美女图片的个人站长交流中才知道,中国科学院下面的一个庞大的技术团队正在试图将他们手上的数据分析技术平民化,他们测试使用的域名正是这行统计代码中的域名。后来,征得该站长的同意,笔者将一些该站数据截图显示如下:

  访客性别分布、访客年纪分布、访客人均收入分析、访客鼠标热区图:



 从以上资料笔者看到,鼠标行为分析———统计器的另一场革命正在悄然地开始。似乎中科院计算所的小伙子们在鼠标轨迹分析上有了不小的突破,但是不清楚他们原始的统计数据来自何方。茫茫的互联网,可能某个屏幕后面深藏着一双双智慧的眼睛,他们正在孕育着新的革命。

  在这个个人站长的介绍下,后来笔者联系上了中科院计算所里一位负责该项目的小伙子。在QQ上和他谈到统计,他提到了一些新的概念,让我这个一直从事于互联网统计分析的所谓“行家”汗颜。他把传统的统计,归为第一代统计。在他看来,第一代统计器只是实现了对简单数据的统计,比如:统计PV、IP等,最多再统计到了一些URL的点击次数等,但这些统计仅仅只是局限在一个数据的层面上。在飞跃发展的互联网的今天,一个数据层面上的统计器,对站长分析站点时,提供的帮助是极其有限的。一个单一的PV、IP数据,一个简单的关键词列表,在这些数据罗列的背后,实际上其中缺少了相当重要的概念,那就是这些统计的URL背后人的概念。目前所有的统计器似乎都没有认识到这一点,任何网站上任何一次点击的诞生,都是由人的行为决定。一谈到这些,这位中科院年轻的小伙子就有止不住的话往外倒。生怕笔者不明白还特意给举了例子,比如:我的网站有1000人访问,这个人群到底具备什么样子的特征?他们到底点击了我网站的那些位置?其中是男性多,还是女性多,他们的年纪分布是怎样的?和地域到底有什么样的关系?还有,他们共同的行为特征是什么?这些在他看来,都是具备非常大的价值的,这些信息比传统的PV、IP数字更加让人看清楚访问网站的人群是什么样子。最后,谈话快结束的时候,这位小伙子还透漏给笔者,他们现在对于用户人口统计学方面的信息已经基本成熟,接下来他们要挑战的是用户心理学方面的统计。在他们看来,人类的所有行为都离不开心理,换句话说,人类的行为只是心理的一个外在表现。只有真正分析出了用户的心理行为才能更有效的掌握用户行为,这才是统计器发展的最终境界。

  当笔者看完这段文字之后,完完全全被震撼住了,甚至差点忘了给一个回复,脑海里止不住地在想象这将是怎样可怕的统计器,而这群敢想敢做、年轻又富有朝气的中科院的小伙子又将是怎样的一个团队,他们拥有着超人类般的创造力。如果有机会的话,笔者真希望能和他们当面谈谈关于统计器的过去和未来。

  最后,笔者衷心希望中科院研发的这款统计器能早日开放,为流量分析市场注入新的活力,为广大的站长朋友们提供一个全新的统计服务。
分享到:
评论
3 楼 卡拉阿风 2008-06-11  
点石论坛有个差不多的。比这篇文章早点。
2 楼 zt371 2008-06-11  
不是又要装工具条什么的吧,否则不知道怎么收集和传递这些数据
1 楼 soci 2008-06-11  
性别还是好统计的,左边放大胸美女 右边放瘦身方法,然后统计点击率。 诱导性统计

相关推荐

    全国地图poi数据(百度地图数据、高德地图数据、谷歌地图数据、mapabc数据、poi数据)

    全国地图数据,包含商户数据、楼宇数据、社区数据、村庄数据、街道数据、测速数据、道路数据等,又称为poi数据,提供百度地图数据、谷歌地图数据、高德地图数据、mapabc地图数据等,全部为官方数据,同步更新!

    数据结构与算法之美

    例如,RPC框架的核心技术之一就是网络通信效率的优化,这涉及到数据的序列化、通信协议的选择等。对数据结构和算法的深入理解,能够帮助研发者写出性能更优、更稳定、更可扩展的框架,从而达到开源水平并被更广泛的...

    百度统计插件用于看日志.zip

    这款插件是百度统计服务的重要组成部分,专为谷歌浏览器设计,使得用户可以直接在浏览器上便捷地查看和分析网站数据。 安装“百度统计插件用于看日志.zip”非常简单,只需要将压缩包中的文件拖拽到谷歌浏览器的扩展...

    把数据提交给百度 谷歌搜索,地图代码

    本文将详细讨论如何将数据提交给百度和谷歌搜索,并简要介绍与地图相关的代码。 首先,我们来看如何将数据提交给百度搜索。提供的代码片段是一个JavaScript函数,名为`aa()`。这个函数的主要目的是构建一个指向百度...

    Android应用源码百度统计例子.zip

    这个实例可以帮助开发者了解如何在自己的Android应用中有效地使用百度统计服务,以跟踪用户行为、分析数据和优化应用性能。下面我们将深入探讨相关知识点。 1. **Android应用开发基础**: - **Android Studio**:...

    使用百度统计接口收集数据.zip

    百度统计接口提供了一种高效的方法来收集网站或应用的数据,以便分析用户行为、跟踪关键指标并进行性能优化。本项目采用Go语言进行开发,这表明我们将在一个强大的、面向并发的语言环境下处理数据收集任务。以下是...

    数据接口百度、谷歌、头条、微博指数、宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视产权数据,高校名单,疫情数据…….zip

    部分接口需要TOKEN,官网注册获取TOKEN文档English文档快速开始import gopup as gpdf = gp.weibo_index(word="疫情", time_type="1hour")print(df)数据仓库指数数据微博指数数据百度指数数据搜尋數據搜尋指數百度...

    Laravel开发-laravel-analytics Google 统计数据获取工具

    `laravel-analytics` 是一个 Laravel 的第三方包,它允许开发者轻松地从 Google Analytics API 获取并解析统计数据。 首先,我们需要安装 `spatie/laravel-analytics` 包。这可以通过 Composer 来完成,运行以下...

    数据集:谷歌街景数据集Google街景图像(42G).zip

    数据集:谷歌街景数据集Google街景图像 42G 谷歌街景数据集,该数据集包含 62,058张高质量的Google街景图像,对于每个街景视图地标,其360°球形视图均分为4个侧视图和1个向上视图;可用于目标检测、多视图等多个...

    「英文版]数据之美──数据分析简要说明实用方式

    《数据之美:数据分析简要说明实用方式》一书由Toby Segaran和Jeff Hammerbacher编辑,于2009年出版,版权归属于O'Reilly Media, Inc.,并在加拿大印刷。本书是一本关于如何利用数据创造美丽和价值的专业指南,深入...

    谷歌转百度坐标例程及坐标距离计算

    在IT行业中,尤其是在地理信息系统(GIS)开发领域,不同地图平台使用的坐标系统可能存在差异,例如谷歌地图和百度地图。这两个平台分别使用了不同的坐标系,导致在进行地图数据交互时,需要进行坐标转换。本篇将...

    百度Google多功能采集

    【标题】:“百度Google多功能采集”指的是一个工具或软件,其主要功能是针对百度和Google这两个全球知名的搜索引擎进行数据采集。这种工具通常被用于市场研究、SEO优化、竞争对手分析等多种目的,通过自动化的方式...

    南明区建筑数据,百度建筑数据。。

    标题和描述中提到的“南明区建筑数据”和“百度建筑数据”主要涉及的是地理信息系统(GIS)中的建筑信息,这些数据通常用于城市规划、建筑管理、环境分析等多种领域。其中,每个压缩包内的文件都有其特定的作用和...

    百度翻译插件-谷歌浏览器

    【百度翻译插件】是为谷歌浏览器(Google Chrome)设计的一款强大的在线翻译工具,它集成了百度翻译的服务,使得用户在浏览网页时可以方便快捷地进行多语言之间的翻译。这款插件不仅支持文本翻译,还提供了诸多实用...

    Laravel开发-laravel-analytics Google 统计数据获取工具 .zip

    在本文中,我们将深入探讨如何使用Laravel框架与Google Analytics集成,通过`laravel-analytics`这个工具来获取和分析Google Analytics中的统计数据。首先,我们来理解Laravel和Google Analytics的基本概念,然后...

    百度坐标与google坐标之间的相互转换

    百度坐标与google坐标之间的相互转换,google坐标与google坐标之间的相互转换。

    input类似百度谷歌检索功能js加css数据后台ajax调用

    标题中的“input类似百度谷歌检索功能js加css数据后台ajax调用”指的是在网页中实现一个搜索框(input元素)的功能,它模仿了百度和谷歌搜索引擎的实时检索特性。这个功能通常结合JavaScript(js)、CSS(css)以及...

    百度文库复制的谷歌插件

    在这个案例中,"百度文库复制"是一个专门针对百度文库的谷歌插件,其主要功能是允许用户在百度文库的页面上方便地复制文本内容。 【百度文库】是百度公司推出的一个在线文档分享平台,用户可以上传、下载和分享各种...

    baidu百度poi,google谷歌poi数据库全国商家、医院、银行、加油站、学校、楼宇、公交等数据

    在IT行业中,POI(Point of Interest)是一个重要的概念,它代表了“兴趣点”,通常用于地图服务,如百度和谷歌地图。这些兴趣点可以包括各种实体,如商家、医院、银行、加油站、学校、楼宇和公交站等。在本案例中,...

Global site tag (gtag.js) - Google Analytics