- 浏览: 564026 次
- 性别:
- 来自: 济南
最新评论
-
brandNewUser:
楼主你好,问个问题,为什么我写的如下的:JobConf pha ...
Hadoop ChainMap -
Molisa:
Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
Molisa:
mapred.min.split.size指的是block数, ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
heyongcs:
请问导入之后,那些错误怎么解决?
Eclipse导入Mahout -
a420144030:
看了你的文章深受启发,想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析
文章列表
JiaThis 分享到按钮
- 博客分类:
- funny
http://www.jiathis.com/help/html/what-is-jiathis
简单,方便,好用!
仅作为备份...
插件是:http://en.wikipedia.org/wiki/Tag_cloud
上图:
本系统为科研项目,基于“关系数据库中关键词查找”课题。结构化数据存放在关系数据库中,web用户查询时不要用户掌握复杂的SQL语言。开发本系统的目的在于用户只需给出一个关键词集合K={k1,k2,…,km},系统就会返回包含关键词的查询结果,从而降低了Web用户的学习成本。
算法部分参考:基于朴素贝叶斯分类器的文本分类算法(上)
Java代码实现参考:数据挖掘贝叶斯(Bayes)算法java实现
1、我讲得太搓了,理解的不够深入,不知道哪里这paper的优点缺点是哪些...
2、paper分段内容之间怎么衔接的也不大清楚...
3、表示不适合搞科研...
原理部分:
请参考:KNN演算法
代码实现:
KNN结点类,用来存储最近邻的k个元组相关的信息
/**
* KNN结点类,用来存储最近邻的k个元组相关的信息
*/
public class KNNNode {
private int index; // 元组标号
private double distance; // 与测试元组的距离
private String c; // 所属类别
public KNNNode(int index, double distance, String c) {
super();
thi ...
F1-Measurea是一个评价指标,经常在信息检索和自然语言处理中使用。
F1-Measure是根据准确率Precision和召回率Recall二者给出的一个综合的评价指标,具体定义如下:
F1 = 2rp / ( r +p )
其中r为recall,p为precision.
参考:http://people.csail.mit.edu/jrennie/writing/fmeasure.pdf
10-fold cross-validation 就是十折交叉验证,用来测试精度
是常用的精度测试方法
将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计
一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。
不断叛逆,不断克制
- 博客分类:
- work/study diary
今天早上,我继续着看《Finding High-Quality Content in Social Media》,
突然老板过来问:“可信那部分做得怎么样了?”
囧掉,自上上个月到现在,两个星期没动了:“...”
老板:“还是上次4个特征是吧?”
我:“是...,对了,slot和apple的数据还是要分开是吧(早该分开来写了)”
老板:“训练集和测试集分别从那两个数据集中分开的,所以当然要分开。”
老板:“论文要看,可信那部分也不能丢下啊。要有效率。”
我:“嗯...”
其实上两周我把精力都放在《课程竞赛系统》和分布式数据库的《基于关系数据库的关键词查询原型系统》 ...
LingPipe
Stanford
LBJ
FastTag
Other java implementations include:
MontyLingua
Berkeley Parser (Not really a POS tagger but all full blown parsers will typically include POS taggers. Google for java syntactic parsers and you will find many.)
QTag
LJB
OpenNLP and Lingpipe as posted by the ...
HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。
其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。
HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。
内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;
链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。
HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威 ...
第一使用Project
- 博客分类:
- BMP
第一次使用,很多不足!
留图纪念...
代码量统计工具
- 博客分类:
- development tools
http://www.codelinecounter.com/downloads.htm
http://www.openrise.com/lab/FlowerPower/
http://love.hackerzhou.me/
package com.tobaidu.algorithm.kmp;
public class KMP {
static int[] P;
/**
* 对子串加以预处理,从而找到匹配失败时子串回退的位置
*
* @param B
* ,待查找子串的char数组
* @return
*/
public static int[] preProcess(char[] B) {
int size = B.length;
int[] P = new int[size];
P[0] = 0;
int j ...