`
gaojingsong
  • 浏览: 1182505 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

【WEb数据采集之js埋码】

阅读更多

一个统计分析平台架构的挑战来自以下 5 个:

(1)日志采集

(2)元数据管理

(3)业务数据建模

(4)任务调度

(5)OLAP引擎

 



 

数据采集的三个阶段

(一)埋点阶段

(二)数据收集阶段

(三)后端处理阶段

 

如上所示,从broswer到page,再到javascript以及后端backend,浏览器返回正常程序运行结果,本地文件中返回最终的log,这很像是在用户程序中埋下了一段“暗代码”,无形之中“窃取”了用户的行为信息。

 

数据收集脚本,被请求后会被执行,这个脚本一般要做如下几件事:

(1)通过浏览器内置javascript对象收集信息,如页面title(通过document.title)、referrer(上一跳url,通过document.referrer)、用户显示器分辨率(通过windows.screen)、cookie信息(通过document.cookie)等等一些信息。

(2)解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据(如电子商务网站的商品编号等)等。

(3)将上面两步收集的数据按预定义格式解析并拼接。

(4)请求一个后端脚本,将信息放在http request参数中携带给后端脚本。

这里唯一的问题是步骤4,javascript请求后端脚本常用的方法是ajax,但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行,而后端脚本在另外的域(GA的后端统计脚本是http://www.google-analytics.com/__utm.gif),ajax行不通。一种通用的方法是js脚本创建一个Image对象,将Image对象的src属性指向后端脚本并携带参数,此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。

 

展示结果



 

  • 大小: 103.8 KB
  • 大小: 23.2 KB
0
0
分享到:
评论

相关推荐

    java web 数据采集系统

    Java Web数据采集系统是一种利用Java技术构建的网络信息获取平台,它主要用于自动化地从Web页面上抓取所需数据。在互联网大数据的时代,数据采集成为分析市场趋势、了解用户行为、优化业务策略的重要手段。本系统...

    WEB数据采集系统.pdf

    根据提供的文件信息,我们可以从中提炼出关于WEB数据采集系统的知识点。文档的标题和描述均为"WEB数据采集系统.pdf",而标签是"互联网 报告"。虽然提供的部分内容是一段带有多个URL和一些不完整信息的文本,但我们...

    侵略者 - WEB数据采集系统

    《侵略者 - WEB数据采集系统》 侵略者WEB数据采集系统是一款专为大规模网页数据抓取和分析设计的专业级工具,适用于大型项目处理海量网页信息的需求。系统通过WEB方式进行参数配置,用户可以方便地设定采集参数,并...

    基于web的数据采集PC端

    在【压缩包子文件的文件名称列表】"WebPC"中,我们可以推测这可能包含了构建Web数据采集PC端的所有资源,如HTML、CSS、JavaScript文件,以及可能的图片、图标和其他支持文件。这些文件通常用于构成Web应用的前端部分...

    web 数据反向采集

    1. **HTTP协议**:Web数据采集的基础是HTTP(超文本传输协议),理解HTTP请求方法(GET、POST等)和响应状态码(200、404等)对于正确获取网页至关重要。 2. **HTML解析**:通过解析HTML结构,可以找到并提取目标...

    web 前端数据采集埋点 .zip

    2. **埋点代码插入**:在Web页面的HTML或JavaScript代码中插入数据采集代码,确保在用户触发特定事件时,能够捕获并发送相关信息。 3. **数据传输**:收集到的数据需要发送到服务器进行存储和处理。这通常通过HTTP...

    Python网络数据采集 - 2016.pdf

    Python网络数据采集的书籍《Web Scraping with Python》提供了关于如何使用Python进行网络数据采集的全面指导。该书适合软件开发人员和研究人员阅读,可以帮助他们理解网络数据采集的基本原理和实现方法,同时介绍...

    web2db数据采集升级版

    【web2db数据采集升级版】是一个专门针对网络数据采集的工具或系统,它通过正则表达式(Regular Expression)技术来抓取并处理互联网上的信息。正则表达式是匹配字符串的强大工具,能帮助我们从网页源代码中精确地...

    《Python爬虫大数据采集与挖掘》教学大纲.pdf

    《Python爬虫大数据采集与挖掘》课程教学大纲 本课程旨在教授学生互联网大数据采集技术、爬虫技术、数据处理与挖掘技术,並使用Python语言进行实现。通过本课程教学,使学生对互联网大数据采集技术有一个全面的了解...

    WebPage网页数据采集API

    《WebPage网页数据采集API详解》 在互联网时代,数据成为了关键资源,而网页数据采集则是获取这些数据的重要手段。WebPage网页数据采集API提供了一种高效、便捷的方式来抓取和处理网页上的信息,这对于数据分析、...

    Windows服务定时调用WebApi采集数据

    使用.NET4.0开发windows服务(含安装客户端),服务定时采集WebAPI数据,经过处理使用ADO存储到SqlServer数据库。本实列模拟windows服务定时调用WebApi接口,采集第三方的电子处方数据,并提供第三方所需SQL视图,...

    基于用户行为的Web使用挖掘数据采集技术研究.pdf

    【基于用户行为的Web使用挖掘数据采集技术研究】 Web使用挖掘是数据挖掘技术的一个分支,其目标是从Web用户的浏览行为中发现有用的信息和模式。这一领域着重于理解用户如何交互和导航于Web环境,以便优化网站设计、...

    利用自定义web-font实现数据防采集

    总结,利用自定义Web字体实现数据防采集是一种巧妙的方法,它结合了CSS3、HTML5和Webfont技术,通过对敏感信息的特殊处理,增加了数据采集的难度。然而,这并非绝对的安全策略,因为高技术的攻击者可能仍能找到破解...

    web端对windows客户端数据采集的展示

    在IT领域,尤其是在系统监控和数据分析的场景下,"web端对windows客户端数据采集的展示"是一个关键的技术应用。这个话题涉及到多个方面的技术知识点,包括客户端数据采集、Web服务器通信、数据处理与展示以及Windows...

    开源数据采集-DotNet写的

    数据采集,又称为Web抓取或网络爬虫,是自动从互联网上获取大量信息的过程。在 DotNet 开源项目中,开发者可能利用了HttpWebRequest或HttpClient类来发送HTTP请求,获取网页内容。这些类允许开发者模拟浏览器行为,...

    基于Python+.NET的OPC分布式数据采集及Web发布应用研究.pdf

    本文介绍了一种基于Python和.NET框架的分布式数据采集和Web发布系统的设计与实现方法,探讨了如何使用这些技术来优化工业数据处理和网络发布流程。 1. Python和.NET框架 Python是一种开源的、解释型的编程语言,因...

    C# 双色球网页数据采集

    在IT行业中,数据采集是一项重要的...对于学习Web爬虫、数据采集和C#编程的开发者来说,这是一个很好的实践案例。通过深入理解并应用这些技术,开发者可以扩展到其他类似的数据采集项目,如股票市场数据、天气预报等。

    Vue 前端数据采集插件,前端异常数据采集插件.zip

    在这个名为"Vue 前端数据采集插件,前端异常数据采集插件.zip"的压缩包中,包含了一个名为"Vue-dataAc-master"的项目,这很可能是Vue.js的一个数据采集插件的源码仓库。这个插件的主要目标是收集前端应用中的数据,...

Global site tag (gtag.js) - Google Analytics