最近关于数据挖掘方面的操作过程当中,碰到了如标题所说的那样寻求用户的关注情况数据挖掘分析。
首先我把简单的图片放上来:
这样的数据挖掘模型建立的目标是要对公司商务人员给一个很好数据挖掘决策支持,数据来源是网络访问用产生的游客朋友们的历史记录。
说到数据挖掘,肯定会是海量数据了。对海量数据的数据挖掘能力我通过sql server 2005 做了一些测试,不如我想象的那么好。
不管怎样,我要对这个模型的建立要有验证过程。我用某网站的按天留下来的用户访问日志上(大概一天有上百万条记录),建立一个如上图所示完整流程。
[1]游客:网站上访问的用户,给他们一个唯一的cookie id标示;
[2]用户访问Weblog日志记录:通用的方式,使用javascript嵌套。能和其他系统独立,又能独立出挖掘系统的夸网站采集过程;
[3]获取url对应的主要关键词:对网页的关键词提取方式有很多种算法,我在测试的时候,使用了一个特殊化处理方式,简化的算法,提高准确度。
[4]获取用户一段时间内关注的关键词:从[1]、[2]、[3]关联上能够得到每一个cookie id 关注的关键词排序(kw1(29次关注)、kw2(23次)、kw3(10次)、。。。kwn)。
表格形式:
userKeyword( id ,userid, keyword ,accesscount)(嵌套表)
当然,要有一个用户在一段时间内关注的用户记录表
userlog(id ,cookieid ,accesstime )(主表)
[5]清理数据:对于当前情况来看,用户这段时间很好浏览,或者少于4次(自控控制这个参数),视为挖掘模型中的无效数据,清理相关数据。用户浏览太多,或者大于100(自行定义),视为一端时间异常情况,抛出清理相关数据。没有cookieid的无法做关联用户操作,清理这些相关数据。这就是一项很有意义,且不可获取的洗礼工作了。
[6]进入关联度分析模型:关联度分析模型在数据挖掘当中基本模型,很好建立。我用SQL Server Business Intelligence Development Studio执行这个操作,生成的cube。
[7]关联分析结果数据导入到关系型数据库:从[6] cube 中,通过mdx query做了循环访问,并把数据填写到关系型数据表格当中。
[8]查看用户关注的关键词关联度数据:对于已经存在关系表格数据,查询几乎是每一个程序擅长的事情了。
通过上面的流程,做一个比较简单的用户访问次数上关注的关键词进行了分析挖掘,得到用户关注关键词之间的关联度情况数据。
分享到:
相关推荐
Screenshot_20241125_214643.jpg
使用cv2.imread()函数读取图片文件。然后使用cv2.cvtColor()函数将图片从BGR颜色空间转换为灰度图(GRAY)。最后,使用cv2.imshow()函数显示原始图片和灰度图,并使用cv2.waitKey(0)等待用户按键,之后使用cv2.destroyAllWindows()关闭所有窗口。
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手
【作品名称】:基于C++ SFML图形库实现的的贪吃蛇小游戏【课程设计】 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 编译环境的说明 Windows 11 专业版 GCC 11.2.0 MinGW-w64 9.0.0 (linked with msvcrt) GNU Make 4.3 SFML 2.5.1 全部 static 编译 特点 相比原版和大部分走直线的贪吃蛇,界面直白简单,动画丝滑流畅,操作易上手 操作 点击或长按任意位置,变化蛇的方向 按w/a/s/d或者上/下/左/右键转向 蛇到边界的时候会从对称一边出来 按住空格可以加速 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。
基于 java gui编程实现的贪吃蛇小游戏.zip
系统集成项目管理-重点考点思维导图.zip-感谢马军老师分享,希望您桃李满天下
## 数据指标说明 全球各国经济制度距离数据,旨在衡量国家在经济制度方面的相似性或差异性。该数据覆盖183个国家,包括两种主要的测算结果。各国经济制度距离数据可为研究者提供了一个框架,帮助大家更好地了解国家之间的经济环境差异。 数据名称:全球183个国家世界各国经济制度距离-各国经济环境差异 数据年份:2005-2022年 数据格式:Excel 计算方法: 经济制度距离1:经济制度距离(edis),简称经济距离。经济距离指标数据来自美国传统基金会(Heritage Foundation)发布的世界经济自由度指数报告,包括财产权、政府诚信、税收负担等10个方面。 经济制度距离2:在获得各国制度指标后,本文根据Kogut和Singh (1988)提出的制度距离测算方法,构建政治制度距离(PD)、经济制度距离(ED)和文化距离(CD)。 指标主要包括:国家、年份、经济距离(根据美国传统基金会世界经济自由度指数整理)、经济距离(参考(Kogut&Singh,1988)构建经济制度距离) 数据来源:美国传统基金会(Heritage Foundation)发布的世界经济自由度指数报告。制度距离是指两个国家在制度的规则、规范和认知三个方面的差异。随着制度理论的发展,组织的社会嵌入性特征受到了广泛的关注。
yolo系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值
数据指标说明 一、中国新经济指数(2017-2022) 二、中国数字经济发展白皮书2017-2021年 三、北京大学中国商业银行数字化转型指数(2010-2021年) 四-1 全国31省数字经济测算2013-2020 四-2 全国31省数字经济发展测算指标 五、 中国城市数字经济指数(2017-2021) 六、中国城市数字经济成分(2011-2019) 七、《2018-2020县域数字乡村指数》
免费资源
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手
《子路等四人侍坐》教学设计与解析.pptx
LaravelAdmin,简洁、直观、强悍的前端后端开发框架,让全栈开发更迅速的SPA单页面应用.LaravelAdmin,LaravelAdmin官网.zip
基于C++实现的Hough Forests算法用于人体动作识别检测 用C++实现的Hough Forests算法[1]的代码,用于动作检测。Hough Forests是一种用于目标检测、跟踪和动作识别的算法。 主要功能点 实现了Hough Forests算法,可用于动作检测 提供了可视化功能,用于显示检测结果 技术栈 C++
WinDDK 配置过的驱动模板
漆器艺术:2023年我国漆器市场规模251.6亿元,古老技艺焕发新生 在浩瀚的历史长河中,漆器以其独特的魅力和精湛的工艺,成为了中华民族传统文化的重要组成部分。从战国秦汉的辉煌,到明清时期的巅峰,漆器不仅见证了历史的变迁,更承载了无数匠人的智慧与心血。然而,在现代社会快速发展的背景下,漆器工艺面临着前所未有的挑战。如何在传承中创新,让这一古老技艺焕发新生,成为行业内外共同关注的焦点。本文将深入探讨漆器市场的现状、趋势与机遇,揭示专业咨询在推动漆器行业健康发展中的关键作用。 市场概况 漆器,作为中国传统手工艺品的瑰宝,其市场规模近年来呈现出平稳增长的态势。据统计,2023年我国漆器整体产量约为0.96亿件,同比增长稳定,市场规模更是达到了约251.6亿元。这一增长,不仅得益于政策的扶持和市场的认可,更离不开匠人们对传统技艺的坚守与创新。生漆,作为漆器生产的主要原材料,其产量和质量直接影响着漆器行业的生产成本和产品质量。2023年,我国生漆整体产量约为1.97万吨,同比增长1.01%,为漆器行业的持续发展提供了坚实的保障。 技术创新与趋势 在传承与创新中,漆器工艺不断焕发新生。现代漆器在保
18-22,23是回忆版
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手
1.1研究背景 随着社会和经济的不断发展,人们的生活节奏也在加快。此外,我们的生活中越来越多的物品是小型化的,我们偶尔会忽视和遗忘这些物品。在体积,大伞,书包,手提箱,书籍,小银行卡,钥匙,身份证,眼镜,钱包等。雨伞可以买到,银行卡可以丢失和重新安排,钥匙可以重新匹配;书丢了可以买新的,但是以前的笔记不能买,身份证不能再补半天,尤其是当人们在外地时更麻烦。 在我们的生活中,我们会偶然捡到丢失的物品,拿起工作卡,学生证,和单位信息可以很方便的联系;但身份证上的信息过于昂贵,无法联系;如果是一把雨伞,一本书,甚至是一个连在一起的人,钥匙就不知道应该归还。谁或谁被给予,而业主仍然急于担心房子;银行卡只能交给开证行,但事实上,银行卡的时候,银行卡丢失的人很难找到丢失银行卡的机会。没有一个网络渠道,每个人都知道如何发布或索赔丢失的财产。当主人丢了他的东西时,他将很难找到。 1.2开发现状
rust官方沙发的收费的