原理部分：请参考：KNN演算法代码实现： KNN结点类，用来存储最近邻的k个元组相关的信息 /** * KNN结点类，用来存储最近邻的k个元组相关的信息 */ public class KNNNode { private int index; // 元组标号 private double distance; // 与测试元组的距离 private String c; // 所属类别 public KNNNode(int index, double distance, String c) { super(); thi ...

2011-11-25 22:07
浏览 5097
评论(0)
分类:行业应用

F1-Measure

博客分类：

Data mining related

　F1-Measurea是一个评价指标，经常在信息检索和自然语言处理中使用。 F1-Measure是根据准确率Precision和召回率Recall二者给出的一个综合的评价指标，具体定义如下：　　 F1 = 2rp / ( r +p ) 　其中r为recall，p为precision. 参考：http://people.csail.mit.edu/jrennie/writing/fmeasure.pdf

2011-11-24 20:13
浏览 1302
评论(0)
分类:行业应用

10-fold cross-validation 十折交叉验证 .

博客分类：

Data mining related

10-fold cross-validation 就是十折交叉验证，用来测试精度是常用的精度测试方法将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计一般还需要进行多次10倍交叉验证求均值，例如10次10倍交叉验证，更精确一点。

2011-11-24 19:48
浏览 2566
评论(0)
分类:行业应用

不断叛逆，不断克制

博客分类：

work/study diary

今天早上，我继续着看《Finding High-Quality Content in Social Media》，突然老板过来问：“可信那部分做得怎么样了？” 囧掉，自上上个月到现在，两个星期没动了：“...” 老板：“还是上次4个特征是吧？” 我：“是...,对了，slot和apple的数据还是要分开是吧（早该分开来写了）” 老板：“训练集和测试集分别从那两个数据集中分开的，所以当然要分开。” 老板：“论文要看，可信那部分也不能丢下啊。要有效率。” 我：“嗯...” 其实上两周我把精力都放在《课程竞赛系统》和分布式数据库的《基于关系数据库的关键词查询原型系统》 ...

2011-11-23 12:31
浏览 852
评论(2)
分类:非技术

POS Tagger in Java

博客分类：

Data mining related

LingPipe Stanford LBJ FastTag Other java implementations include: MontyLingua Berkeley Parser (Not really a POS tagger but all full blown parsers will typically include POS taggers. Google for java syntactic parsers and you will find many.) QTag LJB OpenNLP and Lingpipe as posted by the ...

2011-11-23 10:24
浏览 951
评论(0)
分类:行业应用

PageRank&HITS算法

博客分类：

algorithm
Data mining related

HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息（如权威性），具有计算简单且效率高的特点。 HITS算法通过两个评价权值——内容权威度（Authority）和链接权威度（Hub）来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关，被越多网页所引用的网页，其内容权威度越高；链接权威度与网页提供的超链接页面的质量相关，引用越多高质量页面的网页，其链接权威度越高。 HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑，在对网页内容权威 ...

2011-11-20 15:09
浏览 1553
评论(0)
分类:研发管理

第一使用Project

博客分类：

BMP

第一次使用，很多不足！留图纪念...

2011-11-18 22:32
浏览 2695
评论(6)
论坛回复 / 浏览 (16 / 14268)
分类:行业应用

代码量统计工具

博客分类：

development tools

http://www.codelinecounter.com/downloads.htm

2011-11-18 10:42
浏览 626
评论(0)
分类:行业应用

HTML有趣的东东,

http://www.openrise.com/lab/FlowerPower/ http://love.hackerzhou.me/

2011-11-15 20:43
浏览 685
评论(0)
分类:行业应用

KMP Algorithm

博客分类：

algorithm

algorithm kmp java code

package com.tobaidu.algorithm.kmp; public class KMP { static int[] P; /** * 对子串加以预处理，从而找到匹配失败时子串回退的位置 * * @param B * ，待查找子串的char数组 * @return */ public static int[] preProcess(char[] B) { int size = B.length; int[] P = new int[size]; P[0] = 0; int j ...

2011-11-11 14:57
浏览 991
评论(0)
分类:研发管理

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JiaThis 分享到按钮

简单tagCloud的Servlet实现

卑微的基于关系数据库的关键词Prototype系统

朴素贝叶斯分类器算法

paper report《Finding high-quality content in social media》

K最近邻(KNN)算法原理和java实现

F1-Measure

10-fold cross-validation 十折交叉验证 .

不断叛逆，不断克制

POS Tagger in Java

PageRank&HITS算法

第一使用Project

代码量统计工具

HTML有趣的东东,

KMP Algorithm

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>