`
bayaci
  • 浏览: 277063 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于网友关注网站内容的关联度分析方面的思考

阅读更多
最近关于数据挖掘方面的操作过程当中,碰到了如标题所说的那样寻求用户的关注情况数据挖掘分析。
首先我把简单的图片放上来:
这样的数据挖掘模型建立的目标是要对公司商务人员给一个很好数据挖掘决策支持,数据来源是网络访问用产生的游客朋友们的历史记录。
说到数据挖掘,肯定会是海量数据了。对海量数据的数据挖掘能力我通过sql server 2005 做了一些测试,不如我想象的那么好。
不管怎样,我要对这个模型的建立要有验证过程。我用某网站的按天留下来的用户访问日志上(大概一天有上百万条记录),建立一个如上图所示完整流程。
[1]游客:网站上访问的用户,给他们一个唯一的cookie id标示;
[2]用户访问Weblog日志记录:通用的方式,使用javascript嵌套。能和其他系统独立,又能独立出挖掘系统的夸网站采集过程;
[3]获取url对应的主要关键词:对网页的关键词提取方式有很多种算法,我在测试的时候,使用了一个特殊化处理方式,简化的算法,提高准确度。
[4]获取用户一段时间内关注的关键词:从[1]、[2]、[3]关联上能够得到每一个cookie id 关注的关键词排序(kw1(29次关注)、kw2(23次)、kw3(10次)、。。。kwn)。
表格形式:
userKeyword( id ,userid, keyword ,accesscount)(嵌套表)
当然,要有一个用户在一段时间内关注的用户记录表
userlog(id ,cookieid ,accesstime )(主表)
[5]清理数据:对于当前情况来看,用户这段时间很好浏览,或者少于4次(自控控制这个参数),视为挖掘模型中的无效数据,清理相关数据。用户浏览太多,或者大于100(自行定义),视为一端时间异常情况,抛出清理相关数据。没有cookieid的无法做关联用户操作,清理这些相关数据。这就是一项很有意义,且不可获取的洗礼工作了。
[6]进入关联度分析模型:关联度分析模型在数据挖掘当中基本模型,很好建立。我用SQL Server Business Intelligence Development Studio执行这个操作,生成的cube。
[7]关联分析结果数据导入到关系型数据库:从[6] cube 中,通过mdx query做了循环访问,并把数据填写到关系型数据表格当中。
[8]查看用户关注的关键词关联度数据:对于已经存在关系表格数据,查询几乎是每一个程序擅长的事情了。
通过上面的流程,做一个比较简单的用户访问次数上关注的关键词进行了分析挖掘,得到用户关注关键词之间的关联度情况数据。
分享到:
评论

相关推荐

    2023年“董宇辉小作文事件”舆情监测分析报告.docx

    本报告对“董宇辉小作文事件”进行了舆情监测分析,从话题热度、网络口碑、媒体关注、网民看法等方面进行了深入的分析和讨论。 一、话题热度分析 * 话题讨论热度自12月11日开始不断上升,12月18日达到峰值,之后...

    我们如何面对媒体人的猝然离世——框架理论视角下的微博数据挖掘与内容分析.pdf

    在本篇文档中,内容分析主要以“框架理论”为视角,分析了网友在特定微博事件下(媒体人猝然离世)的评论行为。 框架理论(Framing Theory)是传播学中用于解释媒体如何通过特定的视角和叙述方式影响受众理解的理论...

    饮料品牌内容营销新媒体营销方案.pptx

    该方案涵盖了红牛品牌的新媒体营销环境、趋势分析、品牌画像、定位、内容制作、粉丝运营、舆情监测等多个方面。 一、回顾:2015 新媒体运营小结 & 启示 2015 年红牛新媒体运营小结显示,红牛的新媒体运营成果...

    汽车垂直网站分析QDPPT课件.ppt

    网站应关注差异化服务,以区别于竞争对手,提升用户满意度和粘性。 7. **战略建议** 对于大型汽车网站,需要通过提供个性化服务来满足不同用户群体的需求,提升满意度和用户粘性,从而增强营销价值。而对于规模较...

    南华事业编招聘2016年考试真题及答案解析网友整理版.docx

    综合以上内容,这些题目涵盖了语言能力、地理知识、逻辑推理、历史事件、数据分析、文化比较、科技理解、艺术创作、政策分析和哲学思考等多个领域。对于准备类似考试的考生,需要广泛的知识积累和扎实的基础能力,...

    毕业论文asp.net410通讯录校友录网站.doc

    信息交流方面,网站需要提供丰富的内容,如就业信息、网友日志和网友照片等。在线交流方面,网站需要具备实时的交流功能,实现用户间、用户和管理员间的交流。 可行性分析 大学生信息交流平台网站的可行性主要取决...

    巴斯著计算机算法-设计与分析导论(网友翻译版)

    ### 巴斯著《计算机算法—设计与分析导论》知识点提炼 #### 一、算法的概念及重要性 - **算法定义**:算法是非正式的一套清晰简单的指令集合,能够解决特定的问题或计算特定的函数。 - **算法的可解性**:如果一个...

    东湖2017年事业编招聘考试真题及答案解析网友整理版.docx

    【部分内容】提供的几道题目展示了考试的类型和难度,涉及法律理解、逻辑判断、情境分析、标题拟定、词汇选择等多个方面。 1. 法律相关问题:题目中提到了对法律的理解和应用,反映了考试可能考察考生对法制和法治...

    三亚2016年事业编招聘考试真题及答案解析网友整理版(1).docx

    综合以上内容,这些题目覆盖了逻辑推理、法律知识、政策分析、语文运用、历史认知、教育理念等多个方面,都是事业单位招聘考试可能会考察的技能和知识。对于备考者来说,需要全面复习,提高各方面的理解和应用能力。

    做学生的引航员——对一堂散文阅读课的思考(网友来稿).docx

    【标题】和【描述】并未涉及具体的技术性IT知识点,而是关于语文教学的思考,因此,我会基于提供的部分内容,从教育和技术的角度出发,探讨在信息化时代,教师如何在语文阅读教学中发挥引领作用,以及现代教育技术在...

    基于Python的微博热点李佳琦忒网友话题的评论采集和情感分析的方法

    - **用户需求挖掘**:通过分析评论内容,识别用户的需求和关注点,指导产品和服务优化。 - **危机预警与管理**:实时监控评论情感变化,预防和应对可能出现的公关危机。 - **技术优势**:Python的灵活性和丰富的...

    JS实现网友留言功能

    JS实现网友留言功能并以列表形式显示个网友的留言时间及内容。

    《网友世界》2011年05期

    网友世界  《网友世界》为中国电子学会主办的一个全国性杂志。《网友世界》杂志以网络为中心,定位于所有和网络相关的用户群体。她拥有网络、游戏、电脑软件、硬件、时尚数码产品、网络文化等多个不同的版块,各种...

    《网友世界》2011年第1期

    网友世界  《网友世界》为中国电子学会主办的一个全国性杂志。《网友世界》杂志以网络为中心,定位于所有和网络相关的用户群体。她拥有网络、游戏、电脑软件、硬件、时尚数码产品、网络文化等多个不同的版块,各种...

    六枝特2018年事业编招聘考试真题及答案解析网友整理版.docx

    【描述】本文件是一份关于六枝特2018年事业单位招聘考试的真题集,包含了完整的试题及网友提供的答案解析,旨在帮助考生复习和了解考试内容。 【知识点】 1. 公共基础知识:此考试可能涵盖广泛的知识点,包括但不...

    discuz插件 时刻关注 v0.5.7

    Discuz插件 时刻关注说明如下:本插件的目标用户是论坛管理员、版主和每天上论坛三五次以上的发烧级网友;保证版主随时可以不打开站点直接查看新帖,做到及时删除广告贴和解答网友疑问;保证论坛热心网友可以随时...

    兴仁2019年事业编招聘考试真题及答案解析网友整理版.docx

    【部分内容】涉及到的题目包括逻辑推理、社会现象分析、法律关系理解、推理判断、事件排序、文章理解和成语关系等多方面内容。例如: 1. 这是一个逻辑推理题,涉及到逻辑关联词的理解。根据题干,可以推断出只有到...

    体育垂直网站虎扑网分析.ppt

    【体育垂直网站虎扑网分析】 虎扑网是中国领先的体育媒体平台,自2004年创立以来,凭借其对篮球领域的专注和高质量的内容,逐渐发展成为覆盖多种体育项目的综合性平台。起初,虎扑网只是一个篮球论坛,由几位热爱...

    ABAQUS分析之美 资源

    编委会还与1000余位网友进行互动交流,确保了书中内容贴近读者的需求,提供了工程师和技术人员最需要的技术知识、案例与经验。 在实际工程应用中,精准预测材料性能、产品结构和生产工艺是非常必要的。ABAQUS提供了...

    木兰事业编招聘2016年考试真题及答案解析网友整理版.docx

    【标题】和【描述】提到的是“木兰事业编招聘2016年考试真题及答案解析网友整理版”,这是一份针对2016年木兰地区事业单位招聘考试的复习资料,由网友整理而成,包含考试的真题及对应的答案解析。 【标签】中的...

Global site tag (gtag.js) - Google Analytics