论坛首页 Java企业应用论坛

数据自动归类

浏览 5915 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (6)
作者 正文
   发表时间:2011-04-24  
现在我参与一项目需要做数据归类,
要求如下:

表1:各超市商品信息
比如 康师傅方便面5袋装
     **牌直身杯
     **牌纸杯
     **牌小包装大米
     ...
表2:我们公司自定义的一套商品分类规则
     纸杯
     康师傅方便面(注意这边没有5袋)
     小包装大米
     ...
实际数据比较复杂

需要将表1的分类自动归类到表2中

大家能否提供个思路,最好具体一点。我现在一点思路都没有

谢谢大家了
   发表时间:2011-04-25  
余弦相似度计算?
0 请登录后投票
   发表时间:2011-04-25   最后修改:2011-04-25
使用规则引擎,如Drools,计算机不可能像人脑那样看一眼就知道两个东西的联系,简单的判断可以通过分词的方法判断相似度,复杂了肯定不可靠
0 请登录后投票
   发表时间:2011-04-25  
oznyang 写道
使用规则引擎,如Drools,计算机不可能像人脑那样看一眼就知道两个东西的联系,简单的判断可以通过分词的方法判断相似度,复杂了肯定不可靠

您好,能具体一点吗?我对这快东西 不太熟悉
0 请登录后投票
   发表时间:2011-04-26  
建议楼主,在对表2的数据初始化后,手工对表1的商品进行分类。
用机器语言进行分类不是很准确,特别是如果要根据商品分类进行数据统计时。
我也是作零售业的,对这种基础数据的录入,为保证数据的准确性,我们向来都是手工录入的。
作实施时,零售业客户不缺人手。
0 请登录后投票
   发表时间:2011-04-26   最后修改:2011-04-26
树状分类
还是
打标签

1.需要一个个手工分类
2.需要相似度计算
0 请登录后投票
   发表时间:2011-04-26  
shufudong 写道
建议楼主,在对表2的数据初始化后,手工对表1的商品进行分类。
用机器语言进行分类不是很准确,特别是如果要根据商品分类进行数据统计时。
我也是作零售业的,对这种基础数据的录入,为保证数据的准确性,我们向来都是手工录入的。
作实施时,零售业客户不缺人手。


目前就是手工拖分类
现在遇到两个情况
1、每天有数十万条产品数据入库,手工比较麻烦 因此想改为自动
2、我们统计是全国数据的统计汇总,主要看价格走势,我想一小部分的误差是允许的
0 请登录后投票
   发表时间:2011-04-26  
商品和分类对应有下列方法
1  手工分类,可能你目前已经有了大量的手工分类商品
2  按商品名称和分类名称的相似性分类
3  按商品名称和已知分类的商品名称的相似性分类
4  手工定义规则和例外
你可以把商品名称和分类名称导出个excel或者access表给我,我帮你分
0 请登录后投票
   发表时间:2011-04-26  
按商品名称和分类名称的相似性分类的正确性是有限的,因为 商品名称和分类名称
都很短,没几个字的,提供的信息有限,即使用分词和余弦相似度也没赴欧大的帮助的

我告诉你一个NB的办法:

程序 google 商品名称,得到很多的网页,抓回来,有很多的信息了,再分词,再计算其中分类的分词的出现频率。
用搜索引擎补充知识,这主意怎么样?

0 请登录后投票
   发表时间:2011-04-27  
或者

直接  google 商品名称+分类名称,看找到多少网页,越多的越可能是正确的分类
但是这样做要 google 商品数量*分类数量 次
也许不现实
可以用别的办法先初分一下,一个商品先得到3个最可能的分类,
拿不准的话,再逐一google
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics