[zz]一些shell命令

博客分类：

Linux

1.显示消耗内存/CPU最多的10个进程 ps aux | sort -nk +4 | tail ps aux | sort -nk +3 | tail 2.查看Apache的并发请求数及其TCP连接状态 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 3.找出自己最常用的10条命令及使用次数（或求访问最多的ip数） sed -e 's/| /\n/g' ~/.bash_history |cut -d '' -f 1 | sort | uniq -c | sort -nr | hea ...

2011-04-10 15:35
浏览 1529
评论(0)
分类:操作系统

NLP Resources

博客分类：

NLP

Linux Web C++C#C

Contents Tools : Machine Translation , POS Taggers , NP chunking , Sequence models , Parsers , Semantic Parsers/SRL , NER , Coreference , Language models , Concordances , Summarization , Other Corpora : Large collections , Particular languages , Treeban ...

2011-04-07 16:42
浏览 3800
评论(0)
分类:互联网

Information Retrieval Resources

博客分类：

Search Engine

Matlab Web lucene C#C++

Information Retrieval Resources Information on Information Retrieval (IR) books, courses, conferences and other resources. Books on Information Retrieval (General) Introduction to Information Retrieval. C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2008. Classical and web inform ...

2011-04-07 16:40
浏览 1411
评论(0)
分类:互联网

深入异常处理

博客分类：

Java SE

Spring 数据结构

异常处理是写一个健壮的程序的非常重要的但经常被忽视的方面。如何去抛出、捕获和处理异常有不同的方式，并不是每种方式都很有效。一、设计异常层次：好处： 1.声明捕获一个异常，可以自动的捕获其子类的异常。 2.可� ...

2011-03-31 20:46
浏览 1818
评论(0)
分类:编程语言

模式识别和机器学习笔记第二章概率分布

博客分类：

Machine Learning

UI

这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型。讨论了一些统计学的关键概念，比如 Bayesian inference。概率分布的一个角色是：给定一个随机变量x有限集合的观察值x1,x2….xn，对概率 ...

2011-03-21 23:52
浏览 6306
评论(0)
分类:编程语言

使用Jsoup抽取数据

博客分类：

Search Engine

jQuery HTML5 CSS

Jsoup是一个Java的HTML解析器，提供了非常方便的抽取和操作HTML文档方法，可以结合DOM，CSS和Jquery类似的方法来定位和得到节点的信息。有着和Jquery一样强大的select和pipeline的API。我们以从58同城网抽取租房信息为例,来说明如何使用它： package test import org.jsoup.nodes.Document import java.util.HashMap import org.jsoup.Jsoup /** * Author: fuliang * http://fuliang.iteye.com */ ...

2011-03-20 19:22
浏览 4971
评论(0)
分类:编程语言

Java序列化注意一些点

博客分类：

Java SE

Java IBM J#HTML

1.序列化ID的问题：标示了版本号，版本号一致才能反序列化成功。修改代码同时要跟新版本号，以确保另一端能够识别错误的版本，然后进行修成。生成方法：固定和随机 2.序列化只会序列化非transit的实例变量，不会序列化静态变量，因为他是属于类的。 3.transit的实例变量和没有实现Serializable接口的父类成员不会被序列化。 4.通过readObject,writeObject定义自己的序列化方式,比如一个链表类，和需要加密特殊处理的字段。 5.同一对象两次写入文件，第一次序列化完整的对象，第二次只序列化了一个引用，所以反序列化之后二者是同一个对象。 ObjectOutp ...

2011-03-12 21:04
浏览 1860
评论(0)
分类:编程语言

机器学习常用工具

博客分类：

Machine Learning

OSX C#C++C Linux

机器学习 Support Vector Machine SVMlight An implementation of Vapnik's Support Vector Machine LIBSVM A Library for Support Vector Machines Decision Tree C4.5 The "classic" decision-tree tool, developed by J. R. Quinlan Tutorial M ...

2011-03-12 09:59
浏览 5387
评论(0)
分类:编程语言

使用Spring MVC HandlerExceptionResolver处理异常

博客分类：

Spring

MVC Spring Servlet XML log4j

转载请标明出处：http://fuliang.iteye.com/blog/947191 Spring MVC的确很强大，在每一个你想的到和想不到的地方都会留下钩子，来插入自定义的实现，透明替换默认实现，拦截器堆栈结构设计的非常强大，多种试图的解析，url mapping的多种实现，Locale resolver、Theme resolver 、multipart file resolver，Excepiton hanlder Resolver等等，能让Spring MVC从1.0到3.0经历巨大变化，仍能向后兼容，并支持很酷的RESTful风格和强大的简化xml配置的注解。这些功能我们 ...

2011-03-08 23:31
浏览 72428
评论(13)
分类:企业架构

Linux下使用RTX腾讯通

博客分类：

Linux

腾讯 Linux Ubuntu 虚拟机 XP

在公司为了使用RTX，专门安装了一个XP的虚拟机，但是这个也不方便，每天得开个虚拟机，并且别人给你发的消息你很多时候不能立马看到。所以准备在Linux搞个RTX，这样就能解决我的问题。下面说一下安装的步骤，以及一些问题的解决方法： 1、安装windows的软件，第一件事当然是安装个wine 如果是Ubuntu，直接： $sudo apt-get install wine 2、下载winetricks脚本 $wget http://kegel.com/wine/winetricks 利用winetricks脚本安装一些RTX需要的w ...

2011-03-03 22:46
浏览 10804
评论(0)
分类:操作系统

[zz]Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码

博客分类：

Machine Learning

Matlab C C++C#.net

LDA和HLDA：（1）D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003. （2）T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, vol. 101, pp. 5228-5235, 2004 ...

2011-02-18 00:09
浏览 5651
评论(0)
分类:编程语言

模式识别和机器学习笔记第一章Introduction

博客分类：

Machine Learning

数据结构框架

第一章 introduction 首先举了一个手写识别的例子，介绍了机器学习的基本概念：训练集、测试集合、训练阶段/学习阶段、泛化能力(generalization)、特征选择/抽取、监督式学习、分类、回归、无监督式学习、聚类、密度估计、可视化、增强学习（reinforcementlearning). 1.1 多项式曲线拟合的例子：对sin(2 * PI * x)曲线进行多项式拟合，根据sina函数均匀生成带高斯noise的点，作为训练集合以及测试集合。多项式函数是关于w的线性函数，是一种重要的模型，称为线性模型，在第三、四章会详细介绍，与kernal方法结合，是模式识别和机器学习最重要的方 ...

2011-02-10 23:11
浏览 5120
评论(1)
分类:编程语言

【备忘】机器学习和信息检索常用的东东

博客分类：

Machine Learning

算法 Web

1、多项式分布 2、文本的多项式分布建模 3、共轭先验 4、概率平滑｛Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型｝ 5、似然函数 6、log似然函数 7、期望最大化算法 8、条件概率 9、贝叶斯全公式 10、生成模型 11、判别模型 12、条件期望 13、拉格朗日系数 14、VSM，LSI，PLSI，LDA。。。 15、CRF、HMM、SVM、NN、DT、MEM。。。 16、协同过滤 17、expert finding 18、信息抽取 19、贝叶斯决策论 20、KL-divergence 21、熵、条件熵、交叉熵、互信息 2 ...

2011-02-10 20:12
浏览 2128
评论(0)
分类:编程语言

写个简单的汉语bigram tokenizer

博客分类：

Ruby

Ruby

写个简单的汉语bigram tokenizer，基本能够满足文本挖掘的原型实验的需要。 def bigram_tokenize(text) tokens = [] 0.upto(text.length-1) do |i| tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u end return tokens end

2011-01-23 23:29
浏览 1631
评论(0)
分类:编程语言

Ruby简单实现K-means聚类算法

博客分类：

Machine Learning

算法 Ruby

K-means是一个简单容易实现的聚类算法，我们以对一个图片的颜色的RGB值进行聚类为例，实现这个算法。 K-means算法是一个EM的迭代过程： 1.随机选择k个作为聚类中心 2.E step: 对每一个点，计算它到每一个聚类中心的距离，把这个点分配到最近的聚类中心代表的聚类中。 3.M step：重新计算每个聚类的中心：每个聚类中心为该聚类所有点的均值。重复2～3直到达到最大的迭代次数或者聚类不再发生变化。 #!/usr/bin/ruby # autor: fuliang http://fuliang.iteye.com/ class RGB attr_ac ...

2011-01-23 21:06
浏览 2379
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[zz]一些shell命令

NLP Resources

Information Retrieval Resources

深入异常处理

模式识别和机器学习笔记第二章概率分布

使用Jsoup抽取数据

Java序列化注意一些点

机器学习常用工具

使用Spring MVC HandlerExceptionResolver处理异常

Linux下使用RTX腾讯通

[zz]Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码

模式识别和机器学习笔记第一章Introduction

【备忘】机器学习和信息检索常用的东东

写个简单的汉语bigram tokenizer

Ruby简单实现K-means聚类算法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>