`
cyzhang999
  • 浏览: 26750 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
一直看决策树的原理,但没实现过,所以找个代码看看。 来源:http://www.cnblogs.com/zhangchaoyang/articles/2196631.html 格式可能不太好,可参考原博客。   先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。 table 1     outlook temperature humidity windy play ...

tar命令

tar -c: 建立压缩档案 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。 -z:有gzip属性的 -j:有bz2属性的 -Z:有compress属性的 -v:显示所有过程 -O:将文件解开到标准输出 下面的参数-f是必须的 -f: 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名。 # tar -cf all.tar *.jpg 这条命令是将所有.jpg的文件打成一个名为all.tar的包。-c是表 ...
多文件切换     通过vim打开多个文件(可以通过ctags或者cscope)     ":ls"查看当前打开的buffer(文件)     ":b num"切换文件(其中num为buffer list中的编号) 可以用到的命令有 ":bn" -- next buffer in the buffer list ":bp" -- previous buffer in the buffer list ":b#" -- previous buffer you was in 在windows上使用 ...
没什么可说的,喜欢ctrl_c + ctrl_v. 原url: http://hi.baidu.com/hydrangea/blog/item/4b826c0ef9cab3c97bcbe1ba.html 1.2 工具和技术   事实5:夸大宣传是软件的瘟疫。多数软件工具对于效率和质量的提高幅度仅为5%~35%。但是总有人反复说提高幅度 ...
这次转带分析的,谢谢原作者。 原网址是:http://hi.baidu.com/hydrangea/blog/item/da578e529948240d0df3e36a.html 软件工程的事实与谬论 Facts and Fallacies of Software Engineering Robert L. Glass 著 Alan M. Davis 序 严亚军 龚波 译 =================================== ...
没找到这本书,把主要观点从别人那里转过来,自己参考一下。虽然简短,有的很有启发意义。 在这里没有分析的内容,将在以后的的博客中,逐步把更原始的博客转过来。 这篇的原链接是:http://wjason.iteye.com/blog/280777 软件工程的事实与谬论 Facts and Fallacies of Software Engineering Robert L. Glass 著 Alan M. Davis 序 严亚军 龚波 译 ======================================== 一下是55个事实 第一章 管理 1.1 人员   事 ...
引用的第三方Jar 没有放在referenced libraries 目录下 没注意一个细节,即Project Explorer与Package Explorer的区别,在Package Explorer窗口中会出现Referenced Libraries,但Java EE 透视图中默认左边只有Project Explorer窗口。因此只要打开Package Explorer窗口即可,打开方法:菜单Window->Show View->Other->Java->Package Explorer ,如果Package Explorer窗口中仍不见Referenced Li ...
头脑发热,转几篇博客,以备以后查看方便。 看了一遍,有一个大体了解,数学这部分已经忘了很多。请支持原作。谢谢。 还要找一个介绍bagging的文章,都了解一下。 版权声明:     本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言:     本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看 ...
最近用到gbdt, 所以找资源学习一下,特转此文。 下面是原作者的版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 决策 ...
数据挖掘,最困难的是什么? 我感觉是定义一个目标。数据挖掘的主要任务是对数据的预测、分类。当然目标设定后,数据模型的建立,分类算法的选取,特征的选择等等也都非常难。但不能定义出一个有意义,有可行性的目标,使得想经历那些困难都难。 这话别人能看懂吗?。。  下面转个数据挖掘九律,大家看看。 http://spss-market.r.blog.163.com/blog/static/731422682011116105231563/?suggestedreading ############################################################## 有位 ...
做数据挖掘,惊喜发现做了一堆统计分析。 这还是数据挖掘吗? 真的不是。所以转这篇博客看一下。 http://spss-market.r.blog.163.com/blog/static/7314226820114180022131/?suggestedreading ############################################################# 关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用。“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给 ...
索引文件结构   Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,.nrm存储调节因子数据,另外segments_X文件存储当前最新索引片段的信息,其中X为其最新修改版本,segments.gen存储当前版本即X值,这些文件的详细介绍上节已说过了。     下面的图 ...
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相似性度量准则,将每一条基因分配到最近或“相似”的聚类中心,形成类,然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数。      K-means聚类算法对初始聚类中心依赖 ...
昨天在服务器上,装了一个64位的JDK1.6,在配上费了比较长的时间。其实配置很简单,很多网页上都有,但不知道为什么,有的不行。写一个我最终采用的可行的。 1.  仅对当前shell有用 shell中直接输入: export JAVA_HOME=/YOUR INSTALL PATH export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 2. 仅对当前用户有效,假设为user,仅需修改/home/use ...
HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了 ...
Global site tag (gtag.js) - Google Analytics