`
PolyAngel
  • 浏览: 114264 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
文章分类
社区版块
存档分类
最新评论

基于评分制的学生客户识别模型(转)

 
阅读更多
 一、为何建模
  每年秋季开学,各家运营商都斗得不亦乐乎,仿佛校园是个大金矿。可事实上,这个市场并不大,浙江高校不少,但高校学生客户依然不足总客户的2%。更何况,这些年校园资费越走越低,营销成本却一直居高不下,使得校园市场几无利润可言。若仅从利润角度看,这个市场堪称“鸡肋”。
  尽管如此,校园市场依然不容忽视,因为学生这个群体最富潜力,也最有影响力。忽视了校园,就是忽视了未来。更何况,就算只为“不争馒头争口气”,校园市场也不容放弃。
  电信重组前,联通在校园市场虽然也有所努力,但一直收效甚微,绝大部分学生都用移动。那个时候,有没有模型关系不大。但重组后,电信凭借有线宽带优势,联通凭借高速上网优势,都吸引了不少学生。于此同时,随着语音资费的逐渐接近“白菜价”,作为移动杀手锏的校园虚拟网也仿佛廉颇老矣。如此此消彼长,整个校园市场的竞争形势开始复杂化。
  这个时候,仅凭简单取数已经掌握不了市场的现实。为此,我们在今年启动了校园分析应用项目,而其核心就是学生客户识别模型。
  
  二、建模思路
  著名管理学家德鲁克先生曾经说过:“一种工具,并不一定越大就越好。能够以最小的努力、最小的复杂性和最小的动力做好工作的工具,就是最好的工具。”
  这话非常在理。
  模型是分析的工具,同样越简单越好。
  在很多年前,我们就开始应用各种技术和方法进行用户建模。从实际成效看,很多基于数据挖掘技术的、看上去很先进但一般人难以理解的模型,最终大家都是敬而远之,其成果大都束之高阁。而一些基于简单取数的、大家很容易理解的模型却被大家广泛应用。
  在学生客户识别模型的建模过程中,我们的思路也经历了一个“从复杂到简单”的回归。
  在建模初期,我们尝试过用集团下发方案中的“基于用户社交网络逐步扩散的校园学生用户识别模型”。这个模型实现起来不算复杂,但却让业务人员很难理解,且大家听后都是将信将疑。另外,这个方法的基础是外部收集的“种子用户”,而这个数据,浙江没有一个地市能够收集全。
  放弃集团方案后,我们在原先传统校园取数的基础上,结合交往圈因素,又做了一个模型。该模型主要利用校园套餐、校园虚拟网、校园基站通话和交往圈这四个元素,根据四个因素的不同组合来筛选出学生。并且使筛选出的规模跟经验值一致。
  该模型筛选出的学生规模跟经验值基本一致。经过外呼验证后,发现模型准确率达到73%。从建模角度看,这个准确率已经相当不错,不过这个离我们期待的80%以上的准确率依然还有一定差距。
  通过对外呼结果的分析发现,很多被误判成学生的客户,本身特征确实跟学生类似,比如很多都用动感校园套餐、加入校园虚拟网且同时在校园旁边活动,这些人中很多是教职工或刚毕业的学生。
  为了进一步提高模型准确度,我们考虑在模型中引入校园流量包、校园WLAN包、校园渠道业务办理等特征因素。但由于原先的模型已经是凭经验得来的多因素组合,本身已经够复杂。若再把新的因素一一叠加上去,那么模型就会变得非常费解。
  经过反复思考,我们找到了一个“化繁为简”的思路,这个思路就是“评分制”。
  我们知道,我们要在大量的用户中准确地识别出2%左右的学生客户,凭的就是学生客户的各种特征。客户每体现出一个学生的特征,意味着其是学生的可能性就会增加一分;体现出的特征越多,那么其是学生的概率就越高。
  这就像是考试,每答对一道题目,都会增加一种成绩及格的可能性。当最终获得的分数达到一定阀值时,也就意味着及格了。
  “基于评分制的学生客户识别模型”采用的就是类似考试的思路,该模型将每一个学生用户的特征看成“一道题目”,不同题目具有不同“分数”。模型根据每个用户的实际特征来给每个用户评分;当最终累加的分数达到一定值时,模型就将其判断为学生。
  
  三、模型简介
  “评分制”模型的关键是找到能够识别或排除校园用户的量化特征,对每一个特征赋予合适的分数并确定评分的规则。模型运行时,先对每一个客户进行评分,最后根据累计的分数筛选出学生客户。
  学生客户特征主要分成两类:
  第一类特征是“加分”特征,用来找到学生客户;越是符合这类特征,那么是学生的概率就越高,比如校园基站通话、加入校园虚拟网、办理了校园资费包等。
  第二类特征是“减分”特征,用来排除非学生客户;越是有这些特征,那么说明越不像是学生,比如用户很少发送短信、没有上网、入网时间过早、年龄过大等等。
  
  对于学生客户, “加分特征”有:
  1、校园虚拟网(20分)
  校园营销中,移动的一个主要武器就是校园虚拟网。大的学校有专门虚拟网,小的学校可能是多个学校共用一个虚拟网。
  加入虚拟网后,用户的平均语音资费能够下降一半,所以不加入虚拟网的学生不多。但跟校园套餐的原因一样,加入校园虚拟网的却未必是学生。
  若用户加入虚拟网且有虚拟网通话的,加20分;只加入没使用的,加5分。
  
  2、动感校园套餐(20分)
  针对校园用户,公司有专门的动感校园套餐,资费比社会资费低不少,绝大多数学生都是办理此类套餐。不过,因为某些地区该类套餐的控制并不严格,所以也有社会用户办理。
  若用户办理校园套餐,则加20分。
  
  3、校园资费包(20分)
  目前,有一些叠加资费包是特意针对学生的,到了学校外面就没有任何优惠,比如校园WLAN资费包,校园上网流量资费包。办理这些资费包的大部分是学生,但学生未必就一定办理这些资费包。
  若办理了校园流量包且上网流量大于5MB,那么加20分;若办理后有使用但是流量低于5MB,那么只加10分;若只办理无使用,则加5分。
  若再办理了校园WLAN资费包且有使用,那么加20分;若只是办理,那么加5分。
  
  4、校园基站通信(20分)
  校园基站下是否有通信行为,这是几乎所有校园模型都会用到的元素。不过,因为很多高校和居民区其实分的并不开,再加上校园基站数据的维护也未必完全准确,所以导致校园基站下通信的未必是学生。
  对于校园基站下的通信,要区分不同情况以确定不同的分数。若用户通信行为最多的基站是校园基站,那么加20分;若是2-3位的基站,那么加10分。若是3位以后且通话次数超过5次的,那么加5分;其余情况不加分。
  
  5、直邮卡清单(15分)
  秋季校园营销的发卡主要分两种:一种是直邮;一种是现场发卡。无论是哪种方式,地市都有号码清单。不过,清单中号码的真实使用者未必就是学生,也可能是其家人或朋友。
  处理这部分清单,特别是处理前些年的历史清单时,一定要注意做一些预处理。因为这些清单都是号码,而号码是可以重复利用的,所以每一份清单都必须确定一个用户入网时间的范围,对于超出范围的,要予以剔除。
  若用户号码在此类清单中且入网时间跟清单时间接近,那么加15分。
  
  6、校园渠道业务办理(15分)
  目前,移动在不少学校内部都建有专门的营业厅,若用户在这些地方办理过业务,那么这些用户很有可能是学生。
  若用户在校园渠道办理过业务,那么加15分。
  
  7、交往圈(30分)
  学生客户是个内聚性很强的群体,其小群体内的网内话务量很高,而跟网外客户的通话较少。所以,交往圈既被用作筛选学生,也被用来排除非学生。
  在应用交往圈之前,先利用上述消费特征对校园用户进行一个初选,初选的规模控制在经验值的的80%左右。
  对初选客户群的交往圈进行统计,找到每个客户跟群里多少人有通信行为,算出“群内交往圈大小”。若群内交往圈大小大于等于30个,那么增加30分。若大于5个,小于30个,那么以实际交往圈大小为分数。
  
  8、历史因素(20分)
  对于过往三月的模型进行累计,若连续三月都判成学生,则加20分;若最近连续两个月判成学生,那么加15分;若只有上月判成学生,那么加10分;其余情况不加分。
  
  以上列举的是用来找出学生客户的特征,下面要列举的是在可能的学生客户中,排除非学生客户的一些“减分特征”:
  1、用户通话次数(-50分)
  该项主要用来排除已经流失或接近流失的用户。
  若用户没有通话,那么减去50分;若月通话次数小于5次,那么减去30分。
  
  2、用户短信发送次数(-20分)
  若没有发送任何短信,那么扣20分;若发送短信的条数低于5条,那么扣10分。
  
  3、用户上网流量(-20分)
  若用户没有移动上网流量,那么扣20分;流量小于1MB,扣10分;流量小于5MB,扣5分。
  
  4、客户年龄(-15分)
  高校学生客户有一定的年龄范围,虽然个别可能异常,但是大部分应该都是正常的。
  学生客户的入网资料登记要比社会用户好一些,因为很多产品是限定学生产能办理。所以可以根据客户身份证号得出客户的年龄,而根据年龄可以排除一些非学生客户,特别是能够排除一些教职工。
  若用户没有登记身份证或身份证资料错误,不扣分。
  若用户实名且算出的用户年龄30周岁,那么减去15分。若年龄在26-30岁之间,减去10分。
  
  5、群内交往圈筛选(-20分)
  先应用加分规则,然后利用上面的减分规则,再次筛选出一个准学生客户,然后统计群内交往圈大小。
  若群内交往圈大小小于3个,那么扣20分;3-5个之间,扣10分。
  寒暑假月份不做筛选。
  
  四、模型调试
  尽管本文列举了不少可以用来筛选或排除学生客户的一些特征,但我相信实际能够用来判断的特征更多。在评分制思路下,增加新的判断特征非常容易,也就是说模型很容易进行扩展。
  同样的一个特征,在不同的地方可以有不同的权重,本文所列举的分数只是一个示意。比如,同样校园套餐,假如某地严格控制只有学生能够办理,那么其分数就可以加大。事实上,模型中大部分特征的分数都可以参数化,让各地的业务人员根据自己所在区域的特点作相应的调整。
  这个世界上,不存在什么绝对正确的模型,一个好的模型应该是能够根据业务人员的经验和反馈不断进行调整和优化的模型。
  评分制模型提供了一个学生客户识别的框架,但该模型要达到一个高准确率,还有赖于业务人员的经验和努力。
  外呼验证有助于提高模型准确率。因为我们可以根据外呼验证的结果反过来评定各个特征元素的判断效用,并以此为依据来调整模型参数。
  
  五、模型展望
  评分制模型是在当前四因素组合模型基础上演化而成的一个模型,目前该模型还在开发中,预计需要1-2周时间才能开发完毕。
  模型结果出来后,我们还需要再次进行外呼验证。考虑到初期四因素组合的模型准确率就达到了73%,预计最终模型的准确率应该能够达到80%以上。
  校园应用中除了本网学生客户的识别模型外,还需要建立竞争对手学生客户的识别模型。而竞争对手识别模型能够用到的元素相对较小,主要能够应用的因素只有跟本网学生用户的交往圈。也就是说,本网学生客户的模型越准确,对手的识别也将更加准确。
  如今,我们的竞争对手学生客户的识别准确率还只有55%左右,想要进一步提高准确率的难度极大,目前我们依然还在探索中,尚未找到理想的办法。
分享到:
评论

相关推荐

    基于神经网络的教学评分系统模型.pdf

    【标题】:基于神经网络的教学评分系统模型 【描述】:该文提出了一种基于神经网络的在线教学评分系统设计,旨在通过神经网络训练评分权重,以减少学生主观因素导致的评分误差,提高教师教学质量评价的公正性和准确...

    认知智能大模型加速教育考试数字化转型.pdf

    1. **深化教育考试智能化应用**:认知智能大模型能够理解和生成复杂文本,这对于试题命制和自动评分具有重大意义。例如,它可以生成具有多种难度级别的试题,适应不同层次的学生,并进行智能化评阅,提高评分的准确...

    基于深度学习的新型评教模式探索.docx

    该系统的核心是一个神经网络模型,用以自动判断识别学生对各个评价指标的评价情况。模型结构包括输入层、隐藏层和输出层。输入层负责接收学生对各项评价指标的评价结果;隐藏层则负责处理这些数据,通过复杂的计算找...

    学生管理系统.zip

    3. 成绩管理:自动计算学生成绩,支持多种评分方式,如百分制、等级制等,同时可生成成绩报表供分析。 4. 考勤管理:通过刷卡、面部识别等方式记录学生上下课情况,实时统计考勤数据。 5. 家校互动:提供家校沟通...

    PROE三维造型设计上机考试题.pdf

    学生需要识别这些特征,然后在软件中使用相应的命令如拉伸、旋转、孔、倒圆等来构建模型。 2. **草图绘制**:在创建三维模型前,通常需要先在二维平面上绘制草图,这涉及到精确的几何约束和尺寸标注。草图的质量...

    2013年美国大学生数学建模竞赛(MCMICM)参赛规则中英文对照.docx

    - **学生资格**:比赛期间,所有参赛成员必须是在校学生,但不强制要求为全日制学生。 - **指导教师与学生信息**:指导教师需确保所有学生的相关信息准确无误,并且在竞赛过程中保持有效沟通。 ##### 2. 报名与准备...

    下学期幼儿园大班期末考试卷(语言).pdf

    在OCR技术处理过程中,经常需要使用到智能纠错算法,如基于规则的纠错系统、基于统计的模型或深度学习技术,来提高识别的准确度。在幼儿园考试卷中,对于OCR识别出的错误,教师需要利用这些技术进行校正,确保文档...

    数据库课程设计任务书(最终版).doc

    2. **概念结构设计**:基于需求分析,构建E-R模型,明确实体、属性及实体间的关系,确保模型简洁且无冗余。 3. **逻辑结构设计**:将E-R模型转化为关系模型,分析其中的函数依赖,并优化数据模型,以满足第三范式。...

    基于AutoCAD的工程制图智能组卷系统的设计.rar

    4. 图形识别:可能涉及到图像处理和机器学习技术,用于自动评估学生提交的图纸,判断其是否符合标准。 四、系统实施 1. 需求分析:明确系统功能需求,了解用户群体的具体需求,为后续设计提供依据。 2. 设计阶段...

    计算机方向硕士论文题目选题.docx

    59. 脑电自动睡眠评分系统:开发基于脑电信号的计算机辅助睡眠质量评估工具。 60. 计算机辅助水墨画分类:实现计算机识别和分类水墨画的艺术系统。 61. 计算机房管理系统:分析和设计浙江中医药大学的计算机房管理...

    《信息系统分析与设计》课程设计指导.doc

    每个阶段的报告会根据五分制评分,小组成员根据分工的不同得到相应分数。课程答辩时,组长主答,其他成员对自己的部分进行补充,成绩由学生评委(各组长)和教师评委共同评定。 在管理信息系统开发过程中,通常遵循...

    江苏省泰州中学2020-2021学年高二下学期期中考试语文试题 Word版含答案.docx

    可以使用基于抽取的方法(如TextRank)或基于生成的方法(如Seq2Seq模型)来实现。 ### 三、教育信息技术 1. **智能教育评估系统**: - 针对学生的测试和评估可以借助AI技术实现自动化,包括自动评分、智能反馈等...

    智控大赛题目

    C项目“智能温度控制系统”要求参赛者基于单片机设计并制作一个温控模型,用于模拟房间的温度检测和调节。设计要求中强调了系统对温度的实时检测显示、设定温度阈值、加热/制冷装置的控制以及温度变化曲线的实时绘制...

    计算机科学与技术毕业论文参考题目.pdf

    22. **学生英语试题题库及判分系统**:数据库存储、自动评分规则设定、可能运用自然语言处理技术。 23. **家庭理财管理信息系统**:财务数据分析、报表生成,可能用到Excel VBA或Python的pandas库。 24. **人事...

    数据库课程设计-------图书管理系统

    评分等级分为优秀、良好、中等、及格和不及格五个等级,全面考察学生的整体表现。 #### 五、系统用户需求分析 - **一般用户**:主要是学生群体,关注点在于便捷的图书查询、借阅、归还等功能。 - **图书管理员**:...

    人工智能-机器学习-黑龙江省教育考试机构发展改革研究.pdf

    同时,机器学习能够根据学生的学习行为和成绩,个性化推荐学习资源,提高备考效率。 其次,运用AI技术,可实现考试过程的智能化。例如,通过人脸识别和生物特征识别技术,强化考试安全,防止作弊行为。机器学习算法...

    5 steps to a 5 ap physics c

    比如识别和应用正确的物理原理、理解问题的情景、建立合适的数学模型、运用正确的数学方法求解问题等。 4. 实践与模拟训练:通过大量的练习题和历年真题进行实践,有助于学生加深对物理概念的理解和巩固解题技巧。...

    JSP网上考试系统

    - **学生考试模块**:支持在线答题、提交、自动评分等功能。 - **教师添加试题制作试卷模块**:教师可以上传试题,设定考试规则,自动生成试卷。 #### 三、系统测试与优化 ##### 系统测试 系统测试是确保软件质量...

Global site tag (gtag.js) - Google Analytics