论坛首页 Java企业应用论坛

数据挖掘之分类

浏览 39012 次
精华帖 (10) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-02-19  
鉴于你说的那些话,我不想多花时间来讨论这个问题,因为一是说了让你长见识的话未必对我自己有好处,利人损己的事情我不做的,二是,你这种态度还真是不值得。

0 请登录后投票
   发表时间:2008-02-19  
mochow 写道
鉴于你说的那些话,我不想多花时间来讨论这个问题,因为一是说了让你长见识的话未必对我自己有好处,利人损己的事情我不做的,二是,你这种态度还真是不值得。


第一:任何一个人做事情即使做错了,第一反应是寻找自己是否是错了,然后开始为自己所做的设计或者其他辩护,如果说别人一提出毛病,自己就立刻认同,那么要么没有认真做,要么对自己没有自信,你我不外呼如此,当然我不是那种偏执的人,如果我错了我自然会承认,看我之前的帖子不就是这样吗?

第二:如果说我的态度不好,你觉得你的态度好吗?

第三:你能说让我长见识的话,我未必不能说让你长见识的话, 所以不要用据高临下的角度看人,即使你是高手。

0 请登录后投票
   发表时间:2008-02-19  
按照你的逻辑,你应该先检查你自己是否看明白我的意思没有。

我的意思很简单:

首先,分类是一类算法的集合,它包含很多种不同的算法,光统计方法的算法常见的除了knn之外,还有贝叶斯,分类是数据挖掘一个很重要的算法,并不意味着它仅仅属于数据挖掘这一个学科,还在其他很多学科有应用,其中很多领域是数据挖掘涉及不到的地方,很简单的例子,医院的医学图象处理,交通部门的各种图象处理,很多工业上的应用以及航空航天和国防上的应用等等。你是否看懂我的这个意思了呢?至于你说分类用的多不多,你认为在这个研究分类算法的文章里讨论这个有意义么?

其次,分类的学习,我的看法就是掌握分类的基本算法原理比去琢磨或者死记一段代码要重要的多,这样不管你换成什么语言,都可以写出代码来,而且,一旦以后需要用到这个算法的时候,根本无须拘泥于是否是数据挖掘这个领域之内,只要能解决问题就ok。就这个观点来看这篇文章,价值很低。

我的话完了。
0 请登录后投票
   发表时间:2008-02-19  
mochow 写道
按照你的逻辑,你应该先检查你自己是否看明白我的意思没有。

我的意思很简单:

首先,分类是一类算法的集合,它包含很多种不同的算法,光统计方法的算法常见的除了knn之外,还有贝叶斯,分类是数据挖掘一个很重要的算法,并不意味着它仅仅属于数据挖掘这一个学科,还在其他很多学科有应用,其中很多领域是数据挖掘涉及不到的地方,很简单的例子,医院的医学图象处理,交通部门的各种图象处理,很多工业上的应用以及航空航天和国防上的应用等等。你是否看懂我的这个意思了呢?至于你说分类用的多不多,你认为在这个研究分类算法的文章里讨论这个有意义么?

其次,分类的学习,我的看法就是掌握分类的基本算法原理比去琢磨或者死记一段代码要重要的多,这样不管你换成什么语言,都可以写出代码来,而且,一旦以后需要用到这个算法的时候,根本无须拘泥于是否是数据挖掘这个领域之内,只要能解决问题就ok。就这个观点来看这篇文章,价值很低。

我的话完了。

很好,我要说一声谢谢了,因为从你之前的几个回复我确实不能理解你在说什么,不过这个回复我理解你在说什么了。

有部分观点我比较认可,当然也有很多我不认可,不过都是概念上的,鉴于我们的讨论也不在算法讨论的范围之内,我tx,所以这样的讨论到此为止。

0 请登录后投票
   发表时间:2008-02-20  
ahuaxuan 写道
fyting 写道
建议看Lucene In Action,或者Google的数学之美系列-余弦定理和新闻的分类

你对数据挖掘可能还不是很了解,lucene in action我当然看过,看过多次,可是lucene in action并不是描述数据挖掘的书,里面只有几页纸的内容描写到分类,但是分类是一门很大的学问,涉及很多方法,很多算法,如果你对数据挖掘有兴趣建议你到圈子里看看我推荐的书

确实,我对数据挖掘是很不了解,不过我身边有几位同事的研究方向是数据挖掘,我不是搞这方面的,只能算是道听途说一些,实际上,我连Lucene也一窍不通。
不过我的帖子是针对您的那段代码的。你的代码里,最核心的根据TF/IDF求余弦的部分并没有给出。而且这段代码,我个人感觉没有Google黑板报的那篇文章深入本质且简洁易懂(讲算法还要了解Lucene的API,这不是干扰么),所以补充了出来,你后来也贴出了那篇文章的截图。LuceneInAction确实不是描述数据挖掘的书,但这个例子,却和LuceneInAction里很相似,而且关键部分的代码有缺失,所以我也补充了说建议看看LuceneInAction。
嗯,也谢谢您推荐的书,呵呵。
mochow JJ后面说了很多,耐心真是好。。。
ahuaxuan 写道
呵,有意见可以说出来,不用这样,这样只不过能说明你真的是一个女人,而不是马甲。

  
0 请登录后投票
   发表时间:2008-02-20  
仔细看了lz的文字,当然我不会看code的。

没看清lz要表达的意思,同意mochow的观点。
0 请登录后投票
   发表时间:2008-02-20  

确实,我对数据挖掘是很不了解,不过我身边有几位同事的研究方向是数据挖掘,我不是搞这方面的,只能算是道听途说一些,实际上,我连Lucene也一窍不通。
不过我的帖子是针对您的那段代码的。你的代码里,最核心的根据TF/IDF求余弦的部分并没有给出。而且这段代码,我个人感觉没有Google黑板报的那篇文章深入本质且简洁易懂(讲算法还要了解Lucene的API,这不是干扰么),所以补充了出来,你后来也贴出了那篇文章的截图。LuceneInAction确实不是描述数据挖掘的书,但这个例子,却和LuceneInAction里很相似,而且关键部分的代码有缺失,所以我也补充了说建议看看LuceneInAction。
嗯,也谢谢您推荐的书,呵呵。

public double caculateVector(Map<String, Integer> articleVectorMap, Map<String, Integer> classVectorMap) {
		if (articleVectorMap == null || classVectorMap == null) {
			if (logger.isDebugEnabled()) {
				logger.debug("itemVectorMap or classVectorMap is null");
			}
			
			return 20;
		}
		
		int dotItem = 0;
		int sumOfSquares = 0;
		int matchSize = 0;
		
		for (Entry<String, Integer> entry : articleVectorMap.entrySet()) {
			String word = entry.getKey();
			double categoryWordFreq = 0;
			
			if (classVectorMap.containsKey(word)) {
				categoryWordFreq = classVectorMap.get(word).intValue();
				++matchSize;
			}
			
			dotItem += categoryWordFreq;
			sumOfSquares += categoryWordFreq * categoryWordFreq;
		}
		
		double denominator;
		if (sumOfSquares == articleVectorMap.size()) {
			denominator = sumOfSquares;
		} else {
			denominator = Math.sqrt(sumOfSquares) * Math.sqrt(articleVectorMap.size());
		}
		
		double ratio =  dotItem / denominator;
		
		return Math.acos(ratio);
	}

这段代码包含在我提供的代码下载里,如果想要用的人必然会看代码,不过我也发现我的代码贴错了,就是核心代码是这一块,我提供的代码是可以运行的
fyting 写道

mochow JJ后面说了很多,耐心真是好。。。

就这种态度吗,随便说别人无知,随便侮辱贬低别人,这叫有耐心

0 请登录后投票
   发表时间:2008-02-20  
imjl 写道
仔细看了lz的文字,当然我不会看code的。

没看清lz要表达的意思,同意mochow的观点。

不好意思了,我比较喜欢看代码,如果您不看code的话,我想确实可能不能知道我的意思
0 请登录后投票
   发表时间:2008-02-22  
mochow 写道
按照你的逻辑,你应该先检查你自己是否看明白我的意思没有。

我的意思很简单:

首先,分类是一类算法的集合,它包含很多种不同的算法,光统计方法的算法常见的除了knn之外,还有贝叶斯,分类是数据挖掘一个很重要的算法,并不意味着它仅仅属于数据挖掘这一个学科,还在其他很多学科有应用,其中很多领域是数据挖掘涉及不到的地方,很简单的例子,医院的医学图象处理,交通部门的各种图象处理,很多工业上的应用以及航空航天和国防上的应用等等。你是否看懂我的这个意思了呢?至于你说分类用的多不多,你认为在这个研究分类算法的文章里讨论这个有意义么?

其次,分类的学习,我的看法就是掌握分类的基本算法原理比去琢磨或者死记一段代码要重要的多,这样不管你换成什么语言,都可以写出代码来,而且,一旦以后需要用到这个算法的时候,根本无须拘泥于是否是数据挖掘这个领域之内,只要能解决问题就ok。就这个观点来看这篇文章,价值很低。

我的话完了。


看你举的几个例子,如 医院的医学图象处理,交通部门的各种图象处理
大概可以猜出你应该是眼高手低的,顶多你是最多看了看weka的源代码而已.

我也不懂多少.但我不会自认为自己就比别人高明多少.
0 请登录后投票
   发表时间:2008-02-23  
mba9001同学不要太自以为是。 还真不好意思,关于分类各种算法的代码,我还真是在若干年前自己编过,也还真没有参照过其他人的代码。

另外,你哪只眼睛看到我说自己是高手来着?
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics