历时40多天的Cisco全球AI 竞赛终于落下帷幕,虽然最终只得到第6名(总共有1000多人组成的300多支参赛队伍). 但是作为一个学习AI没多久的小白来说,已经非常知足了.整个竞赛的主题是:客户是否会持续订购公司服务的预测. 回想整个过程,感觉比做一个项目更辛苦,跟磨人, 但也收获颇多.
- 数据的理解:
说的是AI 维度的选取,但是最重要的还是数据的理解的理解,AI模型和算法虽然同样重要,但是只有对数据理解了才能够对数据进行正确的清洗.
- 数据的降维:
整个竞赛的数据有240多个维度,但是想对数据降维,还真不是好办的.使用了PCA也没什么思路.但是最后却从应用层面发现了一个比较好的办法. 使用随机森林或者XGBoost之类的模型,让模型的树有足够的深度,如果在足够深的情况下,还没有被选中的feature,那就是可以抛弃了.这样就变相的做到了数据的降维.这样最后的效果是数据的维度减少了一半.
- 手工指定维度的权重:
目前虽然有很多模型,可以对数据指定维度. 但是没有发现有模型可以指定维度的权限,但是聪明如我无意之中发现了一种可能的workaround,就是将Feature复制出一列,这样无形之中此Feature被选中的几率就翻番了.
- 趋势的理解
机器学习通常要通过对已有的数据整理出规律,其实最有价值的规律,还是特定个体历史趋势.理解了这一点,就会在特征抽取时往这个方向上思考.
- 自动化匹配(灵活的配置):
模型的可扩展性, 一个竞赛持续时间会跨越比较久,比如这次前后2轮,跨越一个半月,所以模型要做到比较容易的扩展.比如哪些字段需要onehot,最初手工分析了一些做onehot效果也不好,前后调整花了好大经历.最后发现最简单的就是查看指定Feature有多少种类型,如果小于一个特定值,就对此字段启用onehot,这样调整非常灵活,效果也不错.后来发现有的模型(LightGBM)就是用的这种办法.
- 数据的独立性:
这次竞赛发现对于一个特定的个体,历史上有多处续订和没有续订,但是其他属性基本一致.这样的数据参加训练,会导致结果不稳定,有抖动. 最后做了一个舍弃,只保留最近的一条数据,预测分数有了一个非常大的提升.
同时也发现了对于一个特定的个体,如果有相同产品,相应产品的行为是基本一致的.如果全部保留是一种变相的数据倾斜.最后只保留一条,发现分数也有一个很大的提升.
这说明,维度直接有关联没办法避免,但是如果不同的数据,有类似的行为,汇总后参与训练,结果会更好.
相关推荐
AI圈-人工智能竞赛Top解决方案(Awesome Top Solution List of Excellent AI Competitions)
组织一场人工智能竞赛需要考虑多个要素,如贴合实际场景的需求分析和赛题设计、审慎的数据筹备与质量管控、科学有效的竞赛成果评价机制等。 人工智能竞赛的发展趋势 人工智能竞赛的五大趋势包括奖金投入意愿攀升、...
第十五届蓝桥杯大赛项目实战赛AI办公科目竞赛规则第十五届蓝桥杯大赛项目实战赛AI办公科目竞赛规则第十五届蓝桥杯大赛项目实战赛AI办公科目竞赛规则第十五届蓝桥杯大赛项目实战赛AI办公科目竞赛规则第十五届蓝桥杯...
2021人工智能竞赛白皮书:1000场竞赛的人工智能-AIIA&CAICT-2022-97页.pdf
第十五届蓝桥杯大赛项目实战赛人工智能科目竞赛规则
随着人工智能技术的不断进步和应用领域的持续扩展,人工智能竞赛已经成为一个全球关注的焦点。无论是高校、科研机构还是产业界,都将人工智能竞赛视为创新和技术发展的催化剂。本白皮书对2021年的人工智能竞赛进行了...
人工智能(AI)作为当今科技领域的革命性技术,其在企业管理中的应用正逐渐改变传统的企业运营模式。尤其在企业内部控制领域,人工智能的应用已经开始展现其独特的优势,同时也带来了一系列挑战。企业内部控制是企业...
在当前的科技浪潮中,人工智能(AI)已经深深地渗透到我们的日常生活中,特别是在智能家居领域。本次竞赛的主题“人工智能竞赛——智能家居竞赛基础功能”旨在考察参赛者对于构建智能、便捷、人性化家居环境的理解与...
天津市武清区近期举办的一系列教育活动中,人工智能竞赛作为重要组成部分,其举办背景、目的、意义及对教育系统带来的影响等内容,为我们提供了深入探讨人工智能与教育结合的知识点。 首先,随着人工智能技术的快速...
这份由德勤发布的报告揭示了AI竞赛中的悬而未决问题,以及各企业在人工智能发展上的现状。以下是报告中涉及的一些关键知识点: 1. **AI竞赛的现状**:全球范围内的科技巨头、初创企业和传统公司都在积极投身于AI...
在2021年的科技竞赛中,人工智能领域的初创公司已成为科技巨头们争相收购的目标。这份由CB Insights发布的报告深入分析了这场AI争夺战,揭示了哪些企业正在积极地通过收购来获取人工智能技术,以及这些收购背后的...
【人工智能知识竞赛】 人工智能(Artificial Intelligence,简称AI)是一门研究、开发用于模拟、延伸和扩展人类智能的科学与技术。它涵盖了机器学习、计算机视觉、自然语言处理、机器人技术等多个领域,旨在通过...
2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx
安徽省大数据与人工智能应用赛题2019赛题是一场旨在推动信息技术,特别是大数据和人工智能在实际应用中的创新与发展的竞赛。这场赛事面向不同教育层次的学生,包括本科A组、本科B组、高职A组和高职B组,旨在激发学生...
风电和光伏人工智能竞赛_Wind-and-PV-AI-competitions
"人工智能行业从CHAT-GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力" 本报告介绍了人工智能行业的最新发展趋势,从CHAT-GPT到生成式AI(Generative AI),探讨了人工智能新范式对生产力的重新...
2019年9月格灵深瞳举办的AI算法竞赛,面向全国技术人员,该文档为大赛结束后的官方赛题讲解演示文档。
2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术...
在当今科技领域,人工智能(AI)无疑是最具革命性的技术之一。随着AI应用的广泛部署,对专用AI芯片的需求也日益增长。这场被称为“人工智能芯片军备竞赛”的技术竞争,已经吸引了包括谷歌在内的硅谷巨头的加入,各大...
记一次:Datawhale AI夏令营-第四期-魔搭-AIGC-Task03 可图测试资源