- 浏览: 26843 次
- 性别:
- 来自: 北京
最新评论
-
num89751:
你好,我最近也在接触crf++,你说的我也有同感,我想知道怎么 ...
maxent 和CRF++使用中遇到的两个问题
文章列表
决策树java实现(转)
- 博客分类:
- MachineLearning
一直看决策树的原理,但没实现过,所以找个代码看看。
来源:http://www.cnblogs.com/zhangchaoyang/articles/2196631.html
格式可能不太好,可参考原博客。
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。
table 1
outlook
temperature
humidity
windy
play
...
tar
-c: 建立压缩档案
-x:解压
-t:查看内容
-r:向压缩归档文件末尾追加文件
-u:更新原压缩包中的文件
这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。
-z:有gzip属性的
-j:有bz2属性的
-Z:有compress属性的
-v:显示所有过程
-O:将文件解开到标准输出
下面的参数-f是必须的
-f: 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名。
# tar -cf all.tar *.jpg
这条命令是将所有.jpg的文件打成一个名为all.tar的包。-c是表 ...
vim的一些使用问题
- 博客分类:
- linux
多文件切换
通过vim打开多个文件(可以通过ctags或者cscope)
":ls"查看当前打开的buffer(文件)
":b num"切换文件(其中num为buffer list中的编号)
可以用到的命令有
":bn" -- next buffer in the buffer list
":bp" -- previous buffer in the buffer list
":b#" -- previous buffer you was in
在windows上使用 ...
没什么可说的,喜欢ctrl_c + ctrl_v.
原url: http://hi.baidu.com/hydrangea/blog/item/4b826c0ef9cab3c97bcbe1ba.html
1.2 工具和技术
事实5:夸大宣传是软件的瘟疫。多数软件工具对于效率和质量的提高幅度仅为5%~35%。但是总有人反复说提高幅度 ...
这次转带分析的,谢谢原作者。
原网址是:http://hi.baidu.com/hydrangea/blog/item/da578e529948240d0df3e36a.html
软件工程的事实与谬论
Facts and Fallacies of Software Engineering
Robert L. Glass 著
Alan M. Davis 序
严亚军 龚波 译
=================================== ...
没找到这本书,把主要观点从别人那里转过来,自己参考一下。虽然简短,有的很有启发意义。
在这里没有分析的内容,将在以后的的博客中,逐步把更原始的博客转过来。
这篇的原链接是:http://wjason.iteye.com/blog/280777
软件工程的事实与谬论
Facts and Fallacies of Software Engineering
Robert L. Glass 著
Alan M. Davis 序
严亚军 龚波 译
========================================
一下是55个事实
第一章 管理
1.1 人员
事 ...
引用的第三方Jar 没有放在referenced libraries 目录下
没注意一个细节,即Project Explorer与Package Explorer的区别,在Package Explorer窗口中会出现Referenced Libraries,但Java EE 透视图中默认左边只有Project Explorer窗口。因此只要打开Package Explorer窗口即可,打开方法:菜单Window->Show View->Other->Java->Package Explorer ,如果Package Explorer窗口中仍不见Referenced Li ...
头脑发热,转几篇博客,以备以后查看方便。 看了一遍,有一个大体了解,数学这部分已经忘了很多。请支持原作。谢谢。
还要找一个介绍bagging的文章,都了解一下。
版权声明:
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com
前言:
本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看 ...
最近用到gbdt, 所以找资源学习一下,特转此文。
下面是原作者的版权声明:
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com
前言:
决策 ...
数据挖掘,最困难的是什么? 我感觉是定义一个目标。数据挖掘的主要任务是对数据的预测、分类。当然目标设定后,数据模型的建立,分类算法的选取,特征的选择等等也都非常难。但不能定义出一个有意义,有可行性的目标,使得想经历那些困难都难。
这话别人能看懂吗?。。 下面转个数据挖掘九律,大家看看。
http://spss-market.r.blog.163.com/blog/static/731422682011116105231563/?suggestedreading
##############################################################
有位 ...
做数据挖掘,惊喜发现做了一堆统计分析。 这还是数据挖掘吗? 真的不是。所以转这篇博客看一下。 http://spss-market.r.blog.163.com/blog/static/7314226820114180022131/?suggestedreading
#############################################################
关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用。“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给 ...
索引文件结构
Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,.nrm存储调节因子数据,另外segments_X文件存储当前最新索引片段的信息,其中X为其最新修改版本,segments.gen存储当前版本即X值,这些文件的详细介绍上节已说过了。
下面的图 ...
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相似性度量准则,将每一条基因分配到最近或“相似”的聚类中心,形成类,然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数。
K-means聚类算法对初始聚类中心依赖 ...
昨天在服务器上,装了一个64位的JDK1.6,在配上费了比较长的时间。其实配置很简单,很多网页上都有,但不知道为什么,有的不行。写一个我最终采用的可行的。
1. 仅对当前shell有用
shell中直接输入:
export JAVA_HOME=/YOUR INSTALL PATH
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
2. 仅对当前用户有效,假设为user,仅需修改/home/use ...
HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了 ...