- 浏览: 29286 次
- 性别:
- 来自: 北京
-
最新评论
文章列表
小样本,并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。
为什么能处理小样本,因为SVM理论是要寻找出支持向量。
非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现,这一部分是SVM的精髓,以后会详细讨论。多说一句,关于文本分类这个问题究竟是不是线性可分的,尚没有定论,因此不能简单的认为它是线性可分的而作简化处理,在水落石出之前,只好先当它是线性不可分的(反正线性可分也不过是线性不可分的一种特例而已,我们向来不怕方 ...
http://acm.hdu.edu.cn/showproblem.php?pid=1203
最终还是没有AC,有个Runtime Error(ACCESS_VIOLATION)
思路应该是正确的
#include <stdio.h>
#include <string.h>
#include <memory.h>
struct Thing
{
int weight;
double value;
};
double middle[1000][10000];
struct Thing things[1000];
do ...
http://acm.xmu.edu.cn/JudgeOnline/problem.php?id=1029
#include <stdio.h>
#include <memory.h>
#include <string.h>
unsigned int result[200][200],path[200];
void connie(int data[],int n)
{
memset(result,-1,sizeof(int)*200*200);
memset(path,0,sizeof(int)*200);
int ...
5月24日开始在天涯实习,到今天已经正好2周了。
第一周,前三天的时间基本在学习ICM的使用,周四周五,学习了在ICM基础上如何对分类结果进行统计,学习RECALL和Precision的概念,并花了几乎一天半的时间制作了一个辅助统计的SWT小工具。这个小工具在第二周被自己广泛使用。
第二周,用了半天多的时间,把小工具完成。周二到周五,主要做模型调优的工作。由于数据量大,而且需要看很多文本,工作方法也不是很明确,所以浪费了一些时间阅读大量文本。周三、周四感觉到模型调优效果不明显,主要是因为ICM本身分词不理想,导致不能按照传统的思维对模型调优,并且非常希望公司能开始制作 ...
召回率:Recall,又称“查全率”;
准确率:Precision,又称“精度”、“正确率”。
首先他们都是对一个模型中的一个类别来说的。
对于某一个类别X来说
A,被分类器标记为X,并确实属于X
B,被分类器标记为X,但不属于X
C,未被分类器标记为X,但却是属于X
D,未被分类器标记为X,同时也不属于X
Precision=A/(A+B)
Recall=A/(A+C)
JVM有一个默认的文件解码格式,通过System.getProperty("file.encoding")可以查看(大约) 在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码。用InputStreamReader代替FileReader,InputStreamReader isr=new InputStreamReader(new FileInputStream(fileName),"UTF-8");这样读 ...
STL/C的面试题目
http://www.chinahrlab.com/company/motorola/178118.html
4指针和引用有什么分别;假如传引用比传指针安全,为什么?假如我使用常量指针难道不 行吗?
(1) 引用在创建的同时必须初始化,即引用到一个有效的对象;而指针在定义的时候不必初 始化,可以在定义后面的任何地方重新赋值.
(2) 不存在NULL引用,引用必须与合法的存储单元关联;而指针则可以是NULL.
(3) 引用一旦被初始化为指向一个对象,它就不能被改变为另一个对象的引用;而指针在任 何时候都可以改变为指向另一个对象.给引用赋值并不是改变它和原始对象的绑定 ...
常用的Socket类型有两种:流式Socket(SOCK_STREAM,http,telnet)和数据报式Socket(SOCK_DGRAM)。
建立Socket
#include <sys/socket.h>
int socket(int domain, int type, int protocol);
domain指明所使用的协议族,通常为AF_INET,表示互联网协议族(TCP/IP协议族);type参数指 定socket的类型:SOCK_STREAM 或SOCK_DGRAM,Socket接口还定义了原始Socket(SOCK_RAW),允许 程序使用 ...
http://www.wuzesheng.com/?p=929
http://hi.baidu.com/luv_resplendent/blog/item/f8d0adf475e9a4e47609d7a6.html
实验证明,实际上它每次执行regexec它找个第一个匹配结果就返回了。不要妄想它一下子把所有的匹配结果都找到把地址放到pmatch数组里。书上的写发很容易让人造成这种误解。因为它每次只匹配一个结果就返回,所以要循环匹配。
C头文件#include <assert.h>//验证程序断言#include <ctype.h>//字符处理
#include <dirent.h>//目录项#include <errno.h>//定义错误码
#include<fcntl.h>//文件控制
#include <float.h>//浮点数处理
#include<ftw.h>//文件树遍历
#include<grp.h>//组文件
#include<limits.h>//实施常数
#include<mat ...
线程的实现在类Unix基本上分为内核支持方式和用户空间支持方式,如果线程的上下文切换是在内核中实现的,我们就称之为内核方式实现,但如果线程的切换是在用户空间进行的我们就称之为用户方式实现,内核并不知情,当然还有两种方式的混合方式,用户空间中的多个线程在内核空间有相应的内核线程与之对应(通常我们称此内核线程为LWP-轻级进程)。
linux的线程编程有两个库pthread和pth,对于pthread的实现是内核方式的实现,每个线程在kernel中都有task结构与之对应,也就是说用ps命令行是可以看见多个线程,线程的调度也是由内核中的schedule进行的。
#include <p ...
【C++】::访问全局变量
【C/C++】
x++效率最高,读取x,自增
x+=1其次,x,x+1,结果赋给x
x=x+1最次,读右x,右x+1,读左,给左x赋值
【C/C++】
double←float
↑
long
↑
unsigned
↑
int←char,short
向左的箭头表示必须转换,向上的箭头表示类型不同时转换
【C/C++】
隐式转换发生在如下时间:
1,混合类型的算术表达式
2,赋值
3,函数参数传递
4,函数返回值传递
【C/C++】
两个变量交换
a=a+b;b=a-b;a=a-b;但是a+b可能会越界
...
题库 http://hi.baidu.com/danforn/blog/item/2cc8067b06a490f60bd18768.html
经验 http://forum.byr.edu.cn/article/ParttimeJob/180401
0524-0528 学习ICM工具,以及接口编程
0531-0604 使用ICM工具调优模型,并开发SWT工具(仅仅给自己使用,后来发现不如excel),写ICM模型调优报告
0607-0611 参加网易有道研发工程师笔试,请假三天
0614-0618 请假一周
0621-0625 WEKA+ICTCLAS+SVMLIB,原型系统,并做测试报告。(以后陈之为DM系统)
0628-0702 开发流程化的DM,把数据导入,清洗,生成vsm模型模块化,并开发并行的StringToVSM方法
0705-0709 TXT文件读入时候的编码问题,多类问题测试(证明关键在于模型),对ICTCLAS ...