`
文章列表
1.显示消耗内存/CPU最多的10个进程 ps aux | sort -nk +4 | tail ps aux | sort -nk +3 | tail 2.查看Apache的并发请求数及其TCP连接状态 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 3.找出自己最常用的10条命令及使用次数(或求访问最多的ip数) sed -e 's/| /\n/g' ~/.bash_history |cut -d '' -f 1 | sort | uniq -c | sort -nr | hea ...

NLP Resources

    博客分类:
  • NLP
Contents Tools : Machine Translation , POS Taggers , NP chunking , Sequence models , Parsers , Semantic Parsers/SRL , NER , Coreference , Language models , Concordances , Summarization , Other Corpora : Large collections , Particular languages , Treeban ...
Information Retrieval Resources Information on Information Retrieval (IR) books, courses, conferences and other resources. Books on Information Retrieval (General) Introduction to Information Retrieval. C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2008. Classical and web inform ...
异常处理是写一个健壮的程序的非常重要的但经常被忽视的方面。如何去抛出、捕获和处理异常有不同的 方式,并不是每种方式都很有效。 一、设计异常层次: 好处: 1.声明捕获一个异常,可以自动的捕获其子类的异常。 2.可 ...
     这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型。讨论了一些统计学的关键概念,比如 Bayesian inference。概率分布的一个角色是:给定一个随机变量x有限集合的观察值x1,x2….xn,对概率 ...
Jsoup是一个Java的HTML解析器,提供了非常方便的抽取和操作HTML文档方法,可以结合DOM,CSS和Jquery类似的方法来定位和得到节点的信息。 有着和Jquery一样强大的select和pipeline的API。 我们以从58同城网抽取租房信息为例,来说明如何使用它: package test import org.jsoup.nodes.Document import java.util.HashMap import org.jsoup.Jsoup /** * Author: fuliang * http://fuliang.iteye.com */ ...
1.序列化ID的问题: 标示了版本号,版本号一致才能反序列化成功。修改代码同时要跟新版本号,以确保另一端 能够识别错误的版本,然后进行修成。 生成方法:固定和随机 2.序列化只会序列化非transit的实例变量,不会序列化静态变量,因为他是属于类的。 3.transit的实例变量和没有实现Serializable接口的父类成员不会被序列化。 4.通过readObject,writeObject定义自己的序列化方式,比如一个链表类,和需要 加密特殊处理的字段。 5.同一对象两次写入文件,第一次序列化完整的对象,第二次只序列化了一个引用, 所以反序列化之后二者是同一个对象。 ObjectOutp ...
机器学习 Support Vector Machine SVMlight An implementation of Vapnik's Support Vector Machine LIBSVM A Library for Support Vector Machines Decision Tree C4.5 The "classic" decision-tree tool, developed by J. R. Quinlan Tutorial M ...
转载请标明出处:http://fuliang.iteye.com/blog/947191 Spring MVC的确很强大,在每一个你想的到和想不到的地方都会留下钩子,来插入自定义的实现,透明替换默认实现, 拦截器堆栈结构设计的非常强大,多种试图的解析,url mapping的多种实现,Locale resolver、Theme resolver 、multipart file resolver,Excepiton hanlder Resolver等等,能让Spring MVC从1.0到3.0经历巨大变化, 仍能向后兼容,并支持很酷的RESTful风格和强大的简化xml配置的注解。 这些功能我们 ...
在公司为了使用RTX,专门安装了一个XP的虚拟机,但是这个也不方便,每天得开个虚拟机,并且别人给你发的消息你很多时候不能立马看到。 所以准备在Linux搞个RTX,这样就能解决我的问题。 下面说一下安装的步骤,以及一些问题的解决方法: 1、安装windows的软件,第一件事当然是安装个wine 如果是Ubuntu,直接: $sudo apt-get install wine 2、下载winetricks脚本 $wget http://kegel.com/wine/winetricks 利用winetricks脚本安装一些RTX需要的w ...
LDA和HLDA: (1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003. (2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, vol. 101, pp. 5228-5235, 2004 ...
第一章 introduction 首先举了一个手写识别的例子,介绍了机器学习的基本概念:训练集、测试集合、训练阶段/学习阶段、泛化能力(generalization)、特征选择/抽取、监督式学习、 分类、回归、无监督式学习、聚类、密度估计、可视化、增强学习(reinforcementlearning). 1.1 多项式曲线拟合的例子: 对sin(2 * PI * x)曲线进行多项式拟合,根据sina函数均匀生成带高斯noise的点,作为训练集合以及测试集合。多项式函数是关于w的线性函数,是一种重要的模型,称为线性模型,在第三、四章会详细介绍,与kernal方法结合,是模式识别和机器学习最重要的方 ...
1、多项式分布 2、文本的多项式分布建模 3、共轭先验 4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型} 5、似然函数 6、log似然函数 7、期望最大化算法 8、条件概率 9、贝叶斯全公式 10、生成模型 11、判别模型 12、条件期望 13、拉格朗日系数 14、VSM,LSI,PLSI,LDA。。。 15、CRF、HMM、SVM、NN、DT、MEM。。。 16、协同过滤 17、expert finding 18、信息抽取 19、贝叶斯决策论 20、KL-divergence 21、熵、条件熵、交叉熵、互信息 2 ...
写个简单的汉语bigram tokenizer,基本能够满足文本挖掘的原型实验的需要。 def bigram_tokenize(text) tokens = [] 0.upto(text.length-1) do |i| tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u end return tokens end
K-means是一个简单容易实现的聚类算法,我们以对一个图片的颜色的RGB值进行聚类为例, 实现这个算法。 K-means算法是一个EM的迭代过程: 1.随机选择k个作为聚类中心 2.E step: 对每一个点,计算它到每一个聚类中心的距离,把这个点分配到最近的聚类中心代表的 聚类中。 3.M step: 重新计算每个聚类的中心:每个聚类中心为该聚类所有点的均值。 重复2~3直到达到最大的迭代次数或者聚类不再发生变化。 #!/usr/bin/ruby # autor: fuliang http://fuliang.iteye.com/ class RGB attr_ac ...
Global site tag (gtag.js) - Google Analytics