锁定老帖子 主题:数据自动归类
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (6)
|
|
---|---|
作者 | 正文 |
发表时间:2011-04-24
要求如下: 表1:各超市商品信息 比如 康师傅方便面5袋装 **牌直身杯 **牌纸杯 **牌小包装大米 ... 表2:我们公司自定义的一套商品分类规则 纸杯 康师傅方便面(注意这边没有5袋) 小包装大米 ... 实际数据比较复杂 需要将表1的分类自动归类到表2中 大家能否提供个思路,最好具体一点。我现在一点思路都没有 谢谢大家了 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2011-04-25
余弦相似度计算?
|
|
返回顶楼 | |
发表时间:2011-04-25
最后修改:2011-04-25
使用规则引擎,如Drools,计算机不可能像人脑那样看一眼就知道两个东西的联系,简单的判断可以通过分词的方法判断相似度,复杂了肯定不可靠
|
|
返回顶楼 | |
发表时间:2011-04-25
oznyang 写道 使用规则引擎,如Drools,计算机不可能像人脑那样看一眼就知道两个东西的联系,简单的判断可以通过分词的方法判断相似度,复杂了肯定不可靠 您好,能具体一点吗?我对这快东西 不太熟悉 |
|
返回顶楼 | |
发表时间:2011-04-26
建议楼主,在对表2的数据初始化后,手工对表1的商品进行分类。
用机器语言进行分类不是很准确,特别是如果要根据商品分类进行数据统计时。 我也是作零售业的,对这种基础数据的录入,为保证数据的准确性,我们向来都是手工录入的。 作实施时,零售业客户不缺人手。 |
|
返回顶楼 | |
发表时间:2011-04-26
最后修改:2011-04-26
树状分类
还是 打标签 1.需要一个个手工分类 2.需要相似度计算 |
|
返回顶楼 | |
发表时间:2011-04-26
shufudong 写道 建议楼主,在对表2的数据初始化后,手工对表1的商品进行分类。
用机器语言进行分类不是很准确,特别是如果要根据商品分类进行数据统计时。 我也是作零售业的,对这种基础数据的录入,为保证数据的准确性,我们向来都是手工录入的。 作实施时,零售业客户不缺人手。 目前就是手工拖分类 现在遇到两个情况 1、每天有数十万条产品数据入库,手工比较麻烦 因此想改为自动 2、我们统计是全国数据的统计汇总,主要看价格走势,我想一小部分的误差是允许的 |
|
返回顶楼 | |
发表时间:2011-04-26
商品和分类对应有下列方法
1 手工分类,可能你目前已经有了大量的手工分类商品 2 按商品名称和分类名称的相似性分类 3 按商品名称和已知分类的商品名称的相似性分类 4 手工定义规则和例外 你可以把商品名称和分类名称导出个excel或者access表给我,我帮你分 |
|
返回顶楼 | |
发表时间:2011-04-26
按商品名称和分类名称的相似性分类的正确性是有限的,因为 商品名称和分类名称
都很短,没几个字的,提供的信息有限,即使用分词和余弦相似度也没赴欧大的帮助的 我告诉你一个NB的办法: 程序 google 商品名称,得到很多的网页,抓回来,有很多的信息了,再分词,再计算其中分类的分词的出现频率。 用搜索引擎补充知识,这主意怎么样? |
|
返回顶楼 | |
发表时间:2011-04-27
或者
直接 google 商品名称+分类名称,看找到多少网页,越多的越可能是正确的分类 但是这样做要 google 商品数量*分类数量 次 也许不现实 可以用别的办法先初分一下,一个商品先得到3个最可能的分类, 拿不准的话,再逐一google |
|
返回顶楼 | |