`
文章列表
  1. 如果平时几乎没看过英文原文,读不懂怎么办?   其实我以前也根本没读过原文,也看不懂。这儿有个好办法:找一本中文经典的书籍,仅看某一节你感兴趣或与你相关的内容,然后先找一两篇英文的综述(review)认真阅读一下,不会的单词可用金山词霸查一查,也许你读第一篇文章需要花两天,你过两天再读第2遍时,你也许只要一天;然后你再读第2篇时也许你只要半天!然后你一定会真正发现读英文文献的快感!人家的文章分析真的透彻,内容丰富!当你需要重点研究时,一般先通览一下近期研究的文献的摘要,有选择的读几篇好文。如果平时读得多了,自然会有感觉,找更高级别杂志的文章读。国外著名的科学家一般都有一个习惯, ...
极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。   最大似然估计法的基本思想  最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个  作为真  的估计。  我们分两种情进行分析: 1.离散型总体 ...
  ICTCLAS,网址:http://www.ictclas.org 中科院计算所ICTCLAS 5.0 ICTCLAS的含义是: Institute of Computing Technology, Chinese Lexical Analysis System (中科院)计算技术研究所,中文词法分析系统 开源版本下载: http://ww
  Ubuntu的软件包格式是deb,如果要安装rpm的包,则要先用alien把rpm转换成deb。   sudo apt-get install alien #alien默认没有安装,所以首先要安装它       sudo alien xxxx.rpm #将rpm转换位deb,完成后会生成一个同名的xxxx.deb       sud ...
  聚类分析        聚类(Clustering)可以简单的理解为将数据对象分为多个簇(Cluster),每个簇 里的所有数据对象具有一定的相似性,这样一个簇可以看多一个整体对待,以此可以提高计算质量或减少计算量。而数据对象间相似性的衡量通常是通过坐标系中空间距离的大小来判断;常见的有 欧几里得距离算法、余弦距离算法、皮尔逊相关系数算法等,Mahout对此都提供了实现,并且你可以在实现自己的聚类时,通过接口切换不同的距离算法。     数据模型        在Mahout的聚类分析的计算过程中,数据对象会转化成向量(Vector)参与运算,在Mahout中的接口是org. ...

优先级队列

优先级队列,是堆数据结构的典型应用。优先级队列的一个典型应用,就是排队任务的有限调度,当一个任务结束后,优先执行当前优先级最高的任务。队列一个任务是,调用INSERT方法。   http://mushiqianmeng.blog.51cto.com/3970029/743611    
Mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是Hadoop中的一个类,允许我们向文件中写入二进制的键值对。       Mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.) 使用方法如下: $MAHOUT_HOME/bin/mahout seqdirectory \ -- ...
  http://www.ibm.com/developerworks/cn/java/j-mahout/    http://xlvector.cn    https://groups.google.com/group/resys    著名博客    Daniel Lemire http://www.daniel-lemire.com    Greg Linden http://glinden.blogspot.com    Daniel Tunkelang http://www.thenoisychannel.com    Jeff Dalton http:/ ...
战争中你被俘了,敌人拷问你情报。你是这么想的:如果我把情报都告诉他们,他们就会认为我没有价值了,就会杀了我省粮食,但如果我死活不说,他们也会认为我没有价值而杀了我。怎样才能做到既让他们确信我知道情报,但又一丁点情报也不泄露呢? 这的确是一个令人纠结的问题,但阿里巴巴想了一个好办法,当强盗向他拷问打开山洞石门的咒语时,他对强盗说:“你们离我一箭之地,用弓箭指着我,你们举起右手我就念咒语打开石门,举起左手我就念咒语关上石门,如果我做不到或逃跑,你们就用弓箭射死我。” 强盗们当然会同意,因为这个方案不仅对他们没有任何损失,而且还能帮助他们搞清楚阿里巴巴到底是否知道咒语这个问题。阿里巴巴也 ...
  使用命令:mahout -h   在Mahout实现的机器学习算法见下表: 算法类
Mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对Mahout的组成进行介绍: 1、mahout-core:核心程序模块,位于/core目录下; 2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下; 3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下; 上述三个部分是程序的主题,存储所有mahout项目的源码。 另外,mahout提供了样例程序,分别在taste-web和examples目录下: 4、taste-web:利用mahout推荐算法而建立的基于WE ...

Eclipse导入Mahout

1、环境配置   a)JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。 b)Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。 2、下载Mahout源代码   与其他Apache下开源项目类似,可以有两种获取源码的方法: 一是通过Subversion检出,检出命令和地址如下svn co http://svn.apache.org/repos/asf/mahout/trunk 二是直接下载发行版本,下载地址:http://apache.etoa ...
不懂正则表达式,怎么好意思说是玩文本挖掘的?   下面给出一些正则表达式的学习资源,希望一起补充、交流、学习   1、正则表达式30分钟入门教程      入门教程,涵盖了正则表达式的知识点,有理论,有示例,以及正则表达式测试工具         2、http://www.regular-expressions.info/ 3、More...
1 文本聚类研究现状   Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。   作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提 ...
When you use a TreeMap, the entries in the Map is sorted by the keys.    This following code outputs the elements of the map sorted by value.  import java.util.*; @SuppressWarnings("unchecked") // for JDK 1.5 and above public class HashMapSort { public static void main(Stri ...
Global site tag (gtag.js) - Google Analytics