用户分析是网站分析中一个重要的组成部分,在分析用户之前我们必须首先能够识别每个用户,分辨哪些是”New Customer”,哪些是”Repeat Customer”。这样不但能够更加清晰地了解到底有多少用户访问了你的网站,分辨他们是谁(用户ID、邮箱、性别年龄等);同时也能够帮助你更好地跟踪你的用户,发现它们的行为特征、兴趣爱好及个性化的设置等,以便于更好地把握用户需求,提升用户体验。
通常当你的网站提供了注册服务,而用户注册并登陆过你的网站,那么用户可以更容易地被识别,因为网站一般都会保存注册用户的详细信息;但是你的网站并不需要注册,而用户的行为以浏览为主,这是用户识别就会显得较为困难,下面提供了几种常用的用户识别的方法:
识别用户的几种方法
当用户并未注册登录的情况下,识别用户的唯一途径就只剩下用户浏览行为的点击流数据,通常情况下它们会保存在WEB日志里面。
1、基于IP的用户识别
IP地址是最容易获取的信息,任何的WEB日志中均会包含,但其局限性也较为明显:伪IP、代理、动态IP、局域网共享同一公网IP出口……这些情况都会影响基于IP来识别用户的准确性,所以IP识别用户的准确性比较低,目前一般不会直接采用IP来识别用户。
获取难度:★
准确度:★
2、基于IP+Agent的用户识别
同样基于最简单形式的WEB日志,我们可以增加一项——Agent,来提高单一IP方式识别用户的准确性。Agent也是WEB日志中一般都会包含的信息,通过IP+Agent的方式可以适当提高IP代理、公用IP这类情况下用户的分辨度,同时通过Agent还可以识别网络爬虫等特殊“用户”,但同样准确度也欠高。
获取难度:★
准确度:★★
3、基于cookie的用户识别
当你通过自定义Apache日志格式或者JavaScript的方法获得用户cookie的时候,其实你已经找到了一个更有效的用户识别的手段。cookie在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的(一个客户端有可能包含多个cookie),所以用cookie来标识用户其实指的是用户使用的客户端电脑,而并非用户本身。
用cookie识别用户的方法当然也存在缺陷:最常见的就是cookie被清除而导致用户无法与原先记录实现对应;同时由于客户端电脑会被共用,或者用户会在不同的电脑上访问你的网站,这个时候cookie就无法直接对应到该用户了。
获取难度:★☆
准确度:★★☆
4、基于用户ID的用户识别
基于用户ID的用户识别是最为准确,因为一般情况下用户不同共享他的用户ID,所以我们可以认为数据中的userid唯一地指向该用户,几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的:网站必须是提供用户注册登录服务的,并且可以通过一些手段在点击流数据中记录userid。
获取难度:★★
准确度:★★★
所以对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以userid为准,当用户在未登录状态浏览时以用户的cookie为准,当用户未登录且cookie无法获取的情况下以IP+Agent为准;这样就能从最大程度上识别唯一用户。
这里推荐一个网站日志中cookie项的自定义设置方法,以便更好地识别用户。cookie是从用户端存放的cookie文件记录中获取的,这个文件里面一般在包含一个cookieid的同时也会记下用户在该网站的userid(如果你的网站需要注册登陆并且该用户曾经登录过你的网站且cookie未被删除),所以在记录日志文件中cookie项的时候可以优先去查询cookie中是否含有用户ID类的信息,如果存在则将用户ID写到日志的cookie项,如果不存在则查找是否有cookieid,如果有则记录,没有则记为”-”,这样日志中的cookie就可以直接作为最有效的用户唯一标识符被用作统计。当然这里需要注意该方法只有网站本身才能够实现,因为用户ID作为用户隐私信息只有该网站才知道其在cookie的设置及存放位置,第三方统计工具一般很难获取。
获取用户信息的途径
通过以上的方法实现用户身份的唯一标识后,我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息,然后为每位用户建立起详细的Profile:
1) 用户注册时填写的用户注册信息及基本资料;
2) 从网站日志中得到的用户浏览行为数据;
3) 从数据库中获取的用户网站业务应用数据;
4) 基于用户历史数据的推导和预测;
5) 通过直接联系用户或者用户调研的途径获得的用户数据;
6) 有第三方服务机构提供的用户数据。
识别并获取用户信息的价值
通过用户身份识别及用户基本信息的采集,我们可以通过网站分析的各种方法在网站是实现一些有价值的应用:
基于用户特征信息的用户细分;
基于用户的个性化页面设置;
基于用户行为数据的关联推荐;
基于用户兴趣的定向营销;
……
文章来源:http://webdataanalysis.net/personal-view/web-user-identification/
分享到:
相关推荐
### 识别网站高级的验证码 #### 一、验证码的基本知识 验证码(CAPTCHA)是一种用于区分用户是人类还是计算机程序的技术。它主要用于防止自动化软件进行恶意活动,如垃圾邮件发送、票务抢购等。 1. **目的**: -...
在网站验证码识别领域,OCR引擎被用来自动识别并解析那些设计用于防止自动化程序的复杂图形验证码。验证码(CAPTCHA)通常由扭曲的字母、数字或符号组成,目的是区分人与机器,以保护网站免受恶意攻击。 "ocr网站...
2024最新版ChatGPT网站源码+支持ai绘画+GPT4.0+AI绘画+TTS实时语音识别输入+用户会员套餐+管理后台。 SparkAi创作系统是一款基于ChatGPT和Midjourney开发的智能问答和绘画系统,提供一站式 AI B/C 端解决方案,涵盖...
在这个特定的案例中,我们讨论的是如何使用VB(Visual Basic)编程语言来实现一个识别网站验证码的系统。这个系统的核心依赖于Pegasus公司的两个控件:SSICR和IMGPr6。 SSICR(Smart Simple Image OCR)是一个光学...
这些库能够将接收到的音频文件转换为文字,支持中文语音的识别,使得用户可以通过语音与Web应用交互。 3. **语音合成**:对于语音合成,可能使用了诸如阿里云的TTS(Text To Speech)、腾讯的TTs或者Google的Text-...
网站指纹识别是一种网络安全技术,它通过分析网络流量的特定模式来识别用户正在访问的网站,即使通信是加密的,如在Tor网络中。这篇论文《Improved Website Fingerprinting on Tor》深入探讨了如何在Tor网络上提升...
这个界面可能是用户与程序交互的平台,用于上传图片、显示识别结果以及可能的参数调整。Matlab的GUIDE工具可以帮助创建这样的用户界面,.fig文件存储了GUI的布局和控件信息,.m文件则是对应的GUI主函数,执行相关的...
"基于wappalyzer指纹库、chromedp框架对网站进行指纹识别"这一标题揭示了我们要探讨的核心技术领域。Wappalyzer是一款知名的浏览器扩展,用于识别网站所使用的技术栈,包括Web服务器、CMS(内容管理系统)、...
- 运用机器学习技术,网站可以训练模型来区分爬虫和人类用户,通过学习各种特征,不断提高识别准确率。 为了使爬虫更难被识别,开发者需要模拟真实浏览器的行为,包括设置合理的请求频率、处理JavaScript、维持...
滑块验证码是一种常见的网站安全机制,它通过让用户移动滑块来完成图像拼接,验证用户是否为真实的人。这种验证码的主要目的是阻止自动化脚本或机器人对网站进行无授权的大量访问,例如批量注册、刷票等行为。 腾讯...
论文可能会深入研究如何在保障用户隐私的同时使用网页识别码,例如使用匿名化技术。 4. **网页识别码在爬虫技术中的应用**:在网页抓取领域,识别码可以用来判断是否已经访问过某个页面,防止重复抓取,提高爬虫...
在实际应用中,中文验证码识别技术可以应用于各种场景,例如网站安全、移动应用、在线服务等,为用户提供更安全的交互环境。同时,随着技术的发展,验证码也在不断进化,例如引入滑动验证、点击验证等,以平衡用户...
本项目"C#验码识别 发号识别 图片识别ReCapcha-master"旨在利用C#进行验证码的识别和图像处理,帮助用户自动解析网站上的ReCaptcha验证码。 ReCaptcha是谷歌提供的一种验证码服务,其目的是为了防止机器自动操作,...
"公式识别小工具"通过图像处理算法,能准确识别图像中的线条、符号和文字,将图片中的公式转化为清晰的文本格式,这样用户就可以方便地将这些公式粘贴到LaTeX、Microsoft Word或其他数学软件中进行使用。 "PDFtoPNG...
首先,验证码识别程序的设计旨在防止自动化系统对网站的恶意攻击,如垃圾邮件发送或账户注册。传统的验证码通常包含扭曲的字母和数字,而现代的验证码则可能包含图像或声音。验证码识别程序的核心是图像处理和机器...
本资源包“高清真实网站用户头像2000个,头像打包下载”提供了丰富的头像素材,旨在满足各种应用场景的需求。 首先,我们来详细了解这些头像的应用场景: 1. 虚拟用户场景:在开发或优化网站、应用时,设计者常常...
标题中的“男声女声识别_GUI_男声女声识别_meatqm6_男生女生识别_声音识别”表明这是一个利用图形用户界面(GUI)进行男性和女性声音区分的项目,可能是一个语音处理或人工智能的实验。这个项目由matlab开发,使用了...