- 浏览: 388182 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (215)
- ubuntu (27)
- 虚拟机 (13)
- 数据库 (29)
- JAVA (40)
- 搜索 (23)
- 开发工具 (2)
- 产品 (2)
- 工具 (1)
- 应用服务器 (5)
- linux (17)
- log (1)
- 多线程 (3)
- 异常 (1)
- shell (6)
- 12306 ;互联网 (1)
- 持续集成&Hudson (4)
- js (1)
- JAVA OR-Map (1)
- 漏洞 (1)
- svn (1)
- MAVEN (3)
- 架构 (1)
- windows (1)
- json (1)
- web (3)
- jenkins (2)
- iptables (2)
- JAVA ssh (0)
- 项目管理 (1)
- tomcat (1)
- 安全 (1)
- 数据库 mysql (1)
- 性能 (1)
最新评论
-
sbwfgihc:
怎么用的啊,
<转>mysql 树查询语句 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
songsove:
请问您qq多少
solr 对拼音搜索和拼音首字母搜索的支持 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
norain1988:
这样就可以实现相关搜索了吗
solr 百度相关搜索类似功能的实现
转自:http://www.20ju.com/content/V27723.htm
3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。
07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如果统计了用户鼠标行为的轨迹分析,足够分析访问百度和Google用户群体的人口统计学方面的信息,比如:访客的性别、年纪等等。笔者所在的公司一直致力于数据挖掘课题的研究,深知如果一定程度上对用户鼠标行为进行分析的话,只要找到准确的算法,是可以很明显的分辨出男性和女性在浏览同一个网页时所表现出的不同的习惯特征。这是所有基于数据行为做识别的人的共识。
百度和GOOGLE在互联网上,具备绝对的优势,他们甚至可以统计和分析用户的鼠标行为特点(如上图)。对于普通的站长,很明显,这些前沿的统计数据几乎无法从传统统计器中获得,捕捉到用户在某网页上的点击事件也许并不是一个很难的事情,但是如果是要获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹,就不是件容易的事情了,尤其是对用户鼠标滑动轨迹的分析,这个更不是一般的统计系统可以做到的,这些滑动轨迹几乎是一个天文数据,分析这些需要极其强大的计算能力,并非国内一个个人统计系统计算能力可以达到的。
目前国内的统计市场,新的入伙人有百度、雅虎,还有一个一直在中国统计器市场名不见声响的GOOGLE,这些巨无霸也都试图瓜分这个市场,他们的意图很明显,建立一个服务于自己的体系,同时利用庞大的个人站点获取大量的用户行为特征。传统的个人网站统计,目前也是三分天下。但是笔者无意中看到的一张图,让笔者不得不再次审视这个似乎已经各自为政,三分天下的统计领域。
下图是笔者无意中获得的一张用户行为分析图,竟然是国内某家并不知名的小个人站点上的数据,笔者在这个小小的美女图片站上发现了一行陌生的统计代码,这个代码的链接很明显的反应出另一个似乎也是统计类的站点,但是很郁闷的是,笔者顺着这个链接,并没有找到这个站点的任何资料,似乎这个站点刻意的隐藏了自己。出于本身的职业习惯,后来笔者找到了这个小站站长的QQ,后来在和这个美女图片的个人站长交流中才知道,中国科学院下面的一个庞大的技术团队正在试图将他们手上的数据分析技术平民化,他们测试使用的域名正是这行统计代码中的域名。后来,征得该站长的同意,笔者将一些该站数据截图显示如下:
访客性别分布、访客年纪分布、访客人均收入分析、访客鼠标热区图:
从以上资料笔者看到,鼠标行为分析———统计器的另一场革命正在悄然地开始。似乎中科院计算所的小伙子们在鼠标轨迹分析上有了不小的突破,但是不清楚他们原始的统计数据来自何方。茫茫的互联网,可能某个屏幕后面深藏着一双双智慧的眼睛,他们正在孕育着新的革命。
在这个个人站长的介绍下,后来笔者联系上了中科院计算所里一位负责该项目的小伙子。在QQ上和他谈到统计,他提到了一些新的概念,让我这个一直从事于互联网统计分析的所谓“行家”汗颜。他把传统的统计,归为第一代统计。在他看来,第一代统计器只是实现了对简单数据的统计,比如:统计PV、IP等,最多再统计到了一些URL的点击次数等,但这些统计仅仅只是局限在一个数据的层面上。在飞跃发展的互联网的今天,一个数据层面上的统计器,对站长分析站点时,提供的帮助是极其有限的。一个单一的PV、IP数据,一个简单的关键词列表,在这些数据罗列的背后,实际上其中缺少了相当重要的概念,那就是这些统计的URL背后人的概念。目前所有的统计器似乎都没有认识到这一点,任何网站上任何一次点击的诞生,都是由人的行为决定。一谈到这些,这位中科院年轻的小伙子就有止不住的话往外倒。生怕笔者不明白还特意给举了例子,比如:我的网站有1000人访问,这个人群到底具备什么样子的特征?他们到底点击了我网站的那些位置?其中是男性多,还是女性多,他们的年纪分布是怎样的?和地域到底有什么样的关系?还有,他们共同的行为特征是什么?这些在他看来,都是具备非常大的价值的,这些信息比传统的PV、IP数字更加让人看清楚访问网站的人群是什么样子。最后,谈话快结束的时候,这位小伙子还透漏给笔者,他们现在对于用户人口统计学方面的信息已经基本成熟,接下来他们要挑战的是用户心理学方面的统计。在他们看来,人类的所有行为都离不开心理,换句话说,人类的行为只是心理的一个外在表现。只有真正分析出了用户的心理行为才能更有效的掌握用户行为,这才是统计器发展的最终境界。
当笔者看完这段文字之后,完完全全被震撼住了,甚至差点忘了给一个回复,脑海里止不住地在想象这将是怎样可怕的统计器,而这群敢想敢做、年轻又富有朝气的中科院的小伙子又将是怎样的一个团队,他们拥有着超人类般的创造力。如果有机会的话,笔者真希望能和他们当面谈谈关于统计器的过去和未来。
最后,笔者衷心希望中科院研发的这款统计器能早日开放,为流量分析市场注入新的活力,为广大的站长朋友们提供一个全新的统计服务。
发表评论
-
lucene 一些性能调优建议
2012-08-22 16:12 5569lucene 排序 Lucene默认按照相关度 ... -
<转>庖丁解牛分词之自定义词库[自定义词典]
2012-07-03 10:21 927原链接: http://hi.baidu.com/stone_ ... -
庖丁(Paoding)分词的词典原理解析
2012-07-03 10:14 3670Paoding分词过程中词典 ... -
solr 百度相关搜索类似功能的实现
2012-06-27 16:26 5786这个功能的实现有几种不同的思路。 大概半个月前,我在网 ... -
solr 索引库同步数据库
2012-06-27 14:01 5663对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
solr 对拼音搜索和拼音首字母搜索的支持
2012-06-27 13:52 9101对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
<转>Solr Suggest实现搜索智能提示
2012-06-27 10:15 13958智能提示简介 搜索的智能提示目前是各大搜索的标配应用, ... -
IK的整个分词处理过程
2012-06-26 14:25 11588IK的整个分词处理过 ... -
Solr的检索运算符
2012-06-21 14:47 4246“:” 指定字段查指定值,如返回所有值*:*² “?” 表示 ... -
Solr 学习(5) —- Solr查询语法和参数
2012-06-21 14:25 11592、查询语法 solr的一些查询语法 ... -
Apache Solr schema.xml及solrconfig.xml文件中文注解
2012-06-21 10:55 1205一、字段配置(schema)schema.xml位于so ... -
<转>LUCENE3.0 自学吧 4 TermDocs
2012-06-07 22:13 1245利用TermDocs也是可以得到一些有用的结果。。。代码 ... -
<转>Lucene里经常被聊到的几个话题
2012-06-07 21:54 1272lvpei.cnblogs.com.自己总结的Lucen ... -
<转>浅谈文档索引普遍原理<笔记>
2012-06-07 21:49 1020--lvpei.cnblogs.com 搜索引擎普遍采 ... -
Lucene中Field类很重要
2012-06-07 21:46 8257org.apache.lucene.demo.Index ... -
Lucene架构简单分析
2012-06-06 15:30 1660Lucene简介Lucene 是一个基 ... -
<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解
2012-06-06 14:49 920lucene在doc.add(new Field(&quo ... -
<转>用于Lucene的各中文分词比较
2012-06-05 09:58 5609对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次 ... -
Lucene3参考资料
2012-06-05 09:46 1017http://wenku.baidu.com/view/706 ... -
lucene索引word/pdf/html/txt文件及检索(搜索引擎)
2012-06-04 14:59 986因为lucene索引的时候是 ...
相关推荐
其中,`<title>`标签用于定义网页的标题,百度和谷歌在处理分隔符时略有不同,通常建议使用竖线(|)或半角逗号(,);`<description>`用于概述网页内容,同样使用半角逗号分隔关键词。 2. **图片优化**:确保网站...
利用真实广泛的IP,软件完全模拟用户行为,运行一次,所有点击参数都是随机的,如刷PV数,时间间隔,点击的广告页面,页面停留时间,以及点击来路等.... ...在此感谢GOOGLE研究群提供的宝贵意见和小青的经验...!@)
1. **页面停留时间统计**:通过追踪用户在页面上的停留时间,分析用户对不同内容的兴趣程度,帮助企业优化网页设计,提升用户体验。 2. **并发在线监测**:实时监控网站同时在线用户数量,有助于评估网站服务器的...
这个新功能与谷歌的即时搜索相似,但有所不同的是,百度的即时搜索结果不仅会根据用户输入的关键词实时更新,还支持用户通过滚动鼠标来查看更多的下拉相关词及其对应的搜索结果。这增加了搜索的互动性和便利性,让...
在本例中,我们需要创建一个容器元素,比如`<div>`,来承载地图的展示区域。此外,可能还需要一些按钮或链接来触发地图的交互行为。 2. CSS样式: CSS(层叠样式表)用于美化和控制HTML元素的外观。为了使地图在...
同时,遵循Google的Material Design指南,提供良好的用户体验。 总的来说,这个项目涵盖了百度地图API的基本使用和进阶特性,对于初学者来说,是一个很好的实践案例。通过深入理解和实践,开发者可以掌握如何在...
1. Google Analytics:全球最广泛使用的网站分析工具,提供丰富的数据报告,包括用户行为、转化路径、来源渠道等。 2. Hotjar:提供热图分析,帮助理解用户在页面上的点击、滚动和鼠标移动行为。 3. GTmetrix:用于...
通过这个库,开发者能够轻松地创建类似于Google地图或百度地图的用户体验,允许用户通过鼠标或触摸设备拖动查看大图。这种功能在展示地理信息、地图导航或大型图像查看等场景下尤其有用。 要使用 SpryMap,首先需要...
无论是按钮状态、鼠标交互还是弹出层设计,都需要结合用户的心理预期和行为习惯来考虑。设计师应始终关注用户的瞬间感受,因为这些瞬间的快感累积起来,就能大幅提升用户对产品或服务的整体满意度。正如文中引用的...
这些库已经集成了地图服务提供商的数据接口,例如高德地图、谷歌地图或百度地图的API,能够方便地获取并展示地图瓦片。 双击放大功能的实现,是通过监听用户的双击事件来完成的。在JavaScript中,我们可以使用`...
<script type="text/javascript" src="***你的秘钥"></script> ``` 接下来,在HTML页面中指定地图容器的元素: ```html <div id='map'></div> ``` 然后,在JavaScript中创建地图实例,并对地图进行初始化设置: ...
然而,这样的快速加载机制可能会导致某些依赖于页面加载事件的JavaScript组件失效,如MathJax用于渲染LaTeX公式,百度统计用于网站数据分析,以及Google Analytics用于追踪用户行为。本篇文章将详细讲解如何使...
当鼠标移动到图片上时,会弹出一个tooltip,显示不同的链接,比如“谷歌”或“百度”。 要实现点击图片跳转到上一张或下一张图片的功能,我们需要额外的工作: 1. **数据结构**:首先,我们需要一个数据结构来存储...
当鼠标离开搜索框时,提示层会失去焦点并隐藏,这是通过监听鼠标事件来实现的,以模仿Google和百度的搜索体验。 4. **字体样式区分**: 匹配到的搜索关键词在提示列表中使用细体显示,未匹配的部分使用黑体,这样...
软件可像真人点击一样,自动点击百度、谷歌、360搜索、搜狗、搜搜、淘宝、天猫等搜索引擎内的网 址,点击逼真,效果好。软件采用互刷机制,由众多挂机自愿者挂机,相互点击网站,可以用来提高来自搜索结果中的点击...
**标题解析:** ...综上所述,"右键百度搜索插件-crx插件"是一款专为谷歌浏览器设计的中文扩展,它通过集成到右键菜单,使用户能快速对选中的文本进行百度搜索,提升了搜索效率并注重了用户体验和合法性。
- **淘宝登录行为验证码**:需要用户鼠标拖动完成,提高了自动化破解的难度。 - **极验第二代行为验证码**:通过滑动拼图验证,专门的验证码服务提供商。 - **极验第三代行为验证码**:结合按键点击和浏览记录...
通过AngularJS,我们可以创建自定义的指令,这些指令可以响应用户的拖动事件,从而实现LOGO的各种动态行为。 1. 放大缩小:这是通过修改元素的CSS `transform` 属性中的 `scale` 值来实现的。当用户执行放大或缩小...
8. **js** 文件夹:包含了JavaScript脚本,这些脚本负责处理用户的交互,识别手势,并触发相应的行为。 9. **html** 文件夹:可能包含了插件的其他HTML页面,如帮助文档或教程。 10. **_locales** 文件夹:这个...
2. **搜索引擎算法**:理解搜索引擎如百度、谷歌的排名算法至关重要,因为软件的目标就是模拟用户行为以符合这些算法的要求。 3. **IP代理**:为了模拟多地用户访问,软件可能支持使用IP代理,这样可以避免单一IP...