论坛首页 综合技术论坛

通过对web日志的挖掘来实现内容推荐系统

浏览 10308 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-10-07  
insky 写道
仅仅通过服务器日志截取信息这方面paper多的是  但是商用效果确实不好  商用推荐系统要求准确有效  那百分之几的准确度可能正是最重要的
-------
推荐系统可大可小  比如搜索商品,页面停留时间可能是一个相当重要的因素,停留时间在不考虑用户挂起离开情况下与用户兴趣度成正比,如果停留时间太短,则证明该商品属于不敢兴趣需要过滤掉,但是用户行为往往是不可琢磨的,有的习惯同时点开多个tag进行浏览,有的习惯一个商品一个商品看,这就变向增加了数据获许准确度的难度。web log mining研究过一个阶段,后来决定还是自己写几段小程序控制准确度要高些。在保证信息有效度的基础上再进行挖掘要有效的多。


   日志挖掘是一个离线处理的过程,你说的是在线记录用户的点击流信息的问题,他们同属于数据收集的范畴,但是在线收集的缺陷实际也非常的明显,会大量消耗系统资源去记录一些实际和网站功能不相干的信息,而且你不能保证记录你的用户行为信息的数据库不出现一些设计时没有考虑到的问题,比如插入错误或者异常等问题致使你要的数据不能被记录。理论上可行的东西不见得实际就能投入应用。我要补充一下的是,你写的收集用户信息的程序,在将来网站进行维护的时候如果不是你本人做修改,维护起来也是一个巨大的麻烦,新手上去根本就不知道往哪里改。用哪种方法是要看具体的网站具体的情况而言,我觉得楼主的文章写的还是很好的,尽管我觉得你说的方法在实现信息收集的准确率的方面会有很大的提高,但我觉得如果是一个日访问过十万的网站来说,你的办法会以牺牲网站的执行性能作为代价去换取信息记录。网站上增加代码就有多出现bug的风险。日志挖掘就弥补了在线收集信息的一些不足的地方。
    一般说来,在你不能保证你的网站开发时就已经运用在线收集用户信息程序的前提下,你必须要用日志作为一个重要的挖掘手段。
    这是我的看法,你有什么不同的见解可以交流一下。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics