文本分类

通宵舒服

浏览: 462 次
性别:
来自: 北京

最近访客更多访客>>

zhengfuqiang

xiangxiang2017

woodding2008

knight_black_bob

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2015-11 ( 1)
更多存档...

博客分类：

机器学习

基于libsvm做的文本分类
第一步：nsj+nlp分词关键字提取，计算tf-idf值;
第二步：转化libsvm格式数据
/**
* @desc 转化libsvm格式数据 (label index1:value1 index2:value2)
* @param outList
* @param outFile
* @param classify
*/
public static void convertToSvmFormat(List<Keyword> outList,String outFile,String classify){

if(outList==null || outList.size()<=0){
return;
}
int index=1;
FileWriter fw = null;
try {
//如果文件存在，则追加内容；如果文件不存在，则创建文件
File f=new File(outFile);
fw = new FileWriter(f, true);
PrintWriter writer = new PrintWriter(fw);
StringBuffer sb = new StringBuffer(classify);
for(Keyword keyword:outList){
sb.append(" " +(index++) + ":" + keyword.getScore());
}
writer.print(sb);
writer.println();//写入换行符
writer.close();
writer.flush();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
第三步：归一化处理有修改源码
/**
* @desc 归一化libsvm数据
* @param svm_scale_txt_file_path
* @param svm_scale_rule_txt_file_path
* @param svm_corpus_txt_file_path
*/
@SuppressWarnings("static-access")
public static void convertToSvmScaleFormat(String svm_scale_txt_file_path,String svm_scale_rule_txt_file_path,String svm_corpus_txt_file_path){
String[] scaleArgs1={"-l","0","-u","1","-c",svm_scale_txt_file_path,"-s",svm_scale_rule_txt_file_path,svm_corpus_txt_file_path};
//创建归一化对象
svm_scale svms1 = new svm_scale();
try {
svms1.main(scaleArgs1);
} catch (IOException e) {
// TODO Auto-generated catch block
log.info("---------------libsvm归一化异常------------"+e.getMessage());
e.printStackTrace();
}
}
第四步：
/**
* @desc svm 训练归一化数据生成模型文件
* @param svm_scale_txt_file_path
* @param svm_model_txt_file
*/
@SuppressWarnings("static-access")
public static void trainSvmModelFormat(String svm_scale_txt_file_path,String svm_model_txt_file){
String[] arg_train = { svm_scale_txt_file_path, // 存放SVM训练模型用的数据的路径
svm_model_txt_file }; // 存放SVM通过训练数据训/ //练出来的模型的路径
// 创建一个训练对象
svm_train svm_train = new svm_train();
try {
svm_train.main(arg_train);
} catch (IOException e) {
// TODO Auto-generated catch block
log.info("---------------libsvm训练模型异常------------"+e.getMessage());
e.printStackTrace();
}
}
第五步：
/**
* @desc libsvm 预测文本所属分类
* @param scale_txt_file_path 归一化后的数据
* @param svm_model_txt_file 训练模型数据
* @param out_classify_txt_file 输出分类
*/
@SuppressWarnings("static-access")
public static void predictTextClassify(String scale_txt_file_path,String svm_model_txt_file,String out_classify_txt_file){
String[] parg = { scale_txt_file_path, // 这个是存放测试数据
svm_model_txt_file, // 调用的是训练以后的模型
out_classify_txt_file }; // 生成的结果的文件的路径
// 创建一个预测或者分类的对象
svm_predict p = new svm_predict();
try {
p.main(parg);
} catch (IOException e) {
// TODO Auto-generated catch block
log.info("---------------libsvm预测文本分类异常------------"+e.getMessage());
e.printStackTrace();
}
}

分享到：

2015-11-04 14:26
浏览 462
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

文本分类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

文本分类

评论

发表评论

相关推荐

最近访客更多访客>>