[置顶] 开源软件/代码链接合集

博客分类：

Open Source Tool

定向抓取/抽取：http://www.scrapy.org 流式处理工具：收集计算https://github.com/nathanmarz/storm 流数据统计https://sites.google.com/site/countminsketch/ 中文处理：简繁转换cconv： http://code.google.com/p/cconv/ 汉字转拼音pinyin4j：http://pinyin4j.sourceforge.net/ 字符串匹配： ahocorasick python实现 ahocorasick: https://hkn.eecs.berkeley.edu/~dy ...

2012-04-08 22:46
浏览 3232
评论(0)
分类:开源软件

[置顶] paper and book阅读

博客分类：

Machine Learning

我微博每周读论文列表 #每周读论文# 1、Parameter estimation for text analysis很好的介绍了参数估计的方法：最大似然、最大后验、贝叶斯估计，以及以LDA为例的文本参数估计方法以及Gibbs sampling实现。 #每周读论文# 2、A 250-yea ...

2011-06-28 23:19
浏览 2676
评论(0)
分类:互联网

Tutorials on topics in machine learning

Assessing and Comparing Classification Algorithms Cross Validation Andrew Moore The Many Faces of ROC Analysis in Machine Learning Peter A. Flach, ICML'04 Classification Decision trees Andrew Moore Tutorial on Practical Prediction Theory for Classification John Langford, JMLR'05 Tutoria ...

2014-03-20 22:19
浏览 1672
评论(0)
分类:互联网

LingPipe White Papers

The following white papers discuss some of the mathematics and bakeoff evaluations of some of the LingPipe modules. Carpenter, Bob. 2011. Sampling, Modeling and Measurement Error in Inference from Clinical Text. Invited talk at ICML 2011 Workshop on Learning from Unstructured Clinical Text. Ca ...

2013-09-16 17:45
浏览 1337
评论(0)
分类:互联网

Standord NLP组整理的NLP工具、资源列表

博客分类：

NLP

Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Contents Tools: Machine Translation, POS Taggers, NP chunking, Sequence models, Parsers, Semantic Parsers/SRL, NER, Coreference, Language models, Concordances, Summarizati ...

2013-06-11 20:32
浏览 9064
评论(0)
分类:互联网

一些机器学习公开课

器学习公开课

Big Data, Large Scale Machine Learning： http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:start 3rd Lisbon Machine Learning School：http://lxmls.it.pt/2013/ Unsupervised Feature Learning and Deep Learning Andrew Ng http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=ufldl Machine Le ...

2013-04-21 19:32
浏览 3686
评论(1)
分类:互联网

[zz]推荐系统-从入门到精通

博客分类：

Data/Web Mining
Machine Learning

为了方便大家从理论到实践，从入门到精通，循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读，也欢迎提出意见和指出未标明的经典文献以丰富各学科需求（为避免初学者疲于奔命，每个方向只推荐几篇经典文献）。 1. 中文综述(了解概念-入门篇) a) 个性化推荐系统的研究进展 b) 个性化推荐系统评价方法综述 2. 英文综述(了解概念-进阶篇) a) 2004ACMTois-Evaluating collaborative filtering recommender systems b) 2004ACMTois -Introduction to Recommender Syst ...

2013-04-20 14:38
浏览 2509
评论(0)
分类:互联网

2012年读的一些书

算法设计模式数据挖掘机器学习书籍

今年看了比较多的书，主要上班比较远，1个多小时，大部分都是在坐地铁看的。程序员系列 1、《程序员修炼之道 : 从小工到专家》：主要介绍了软件设计的一些原则，避免的问题，一个项目如何做好。一些高效的工具。 2、 ...

2013-03-02 08:45
浏览 3319
评论(2)
分类:互联网

机器学习在公司的分享

博客分类：

Machine Learning

机器学习

机器学习在公司的分享，ppt见附件，主要简单介绍了机器学习：机器学习概念相关学科机器学习三大要素生成模型和判别模型频率派和贝叶斯派基本算法的直观理解模型选择模型组合-Ensemble Method Online Learning Structure Learning Deep Learning 机遇和挑战机器学习适用场景

2013-02-23 12:38
浏览 2928
评论(1)
分类:互联网

Deep learning的一些教程[rz]

博客分类：

Machine Learning

转载自http://baojie.org/blog/2013/01/27/deep-learning-tutorials/ Stanford Deep Learning wiki: http://deeplearning.stanford.edu/wiki/index.php/Main_Page 几个不错的深度学习教程，基本都有视频和演讲稿。附两篇综述文章和一副漫画。还有一些以后补 ...

2013-02-03 19:14
浏览 27161
评论(0)
分类:互联网

[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接

博客分类：

Data/Web Mining
Machine Learning

牛人主页（主页有很多论文代码） Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros at CMU Ce Liu at Microsoft Research New England Vittorio Ferrari at Univ.of Edinburgh Kristen Grauman at UT Austin Devi Parikh at TTI-Chicago (Marr Prize at ICCV2011) ...

2012-11-30 13:13
浏览 12276
评论(0)
分类:互联网

Deep learning的一些有用链接

博客分类：

Machine Learning

deep learning Restricted boltzmann machine RBM

deeplearning tutorials： http://deeplearning.net/tutorials/ http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf Restricted boltzmann machine： http://deeplearning.net/tutorial/rbm.html http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ http://www.csri.utoronto.ca/~hint ...

2012-11-12 19:09
浏览 3513
评论(0)
分类:互联网

期望最大（EM）算法推导

博客分类：

Data/Web Mining

em 期望最大

X是一个随机向量，我们希望找到使得取得最大值，这就是关于的最大似然估计。为了方便估计，我们一般引入log似然函数： EM算法是一个迭代的过程，假设第n次迭代当前的估计是。由于我们的目标是最大化，我们希望新一轮的更新使得等价的，我们希望最大化他们的不同：现在我们考虑隐变量的问题，隐变量可能是没有观测到的或者缺失的变量，有时为了计算最大似然函数更容易解决也会引入隐变量，因为可以利用EM框架来方便计算。我们假设隐变量用Z来表示，那么我们重写一下得到：利用Jensen's不定式：其中常量并且

2012-08-05 19:54
浏览 8456
评论(0)
分类:互联网

信息论学习总结（一）基础知识

博客分类：

Machine Learning

information theory 信息论机器学习

我们考虑一下一个离散的随机变量x,当我们观察到它的一个值，能给我们带来多少信息呢？这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生，我们获得信息要多。所以信息量的多少依赖于概率分布p(x)，所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢？我们观察两个相互独立的事件x，y，我们观察它得到的信息量，要和单独观察他们得到的信息量之和相等。即 h(x,y) = h(x) + h(y) 而两个独立的时间x,y的概率关系： p(x,y) = p(x) p(y) 基于上面的观察，信息量必须和p( ...

2012-06-02 22:57
浏览 4437
评论(0)
分类:互联网

使用SGD(Stochastic Gradient Descent)进行大规模机器学习

博客分类：

Machine Learning

sgd machine learning large-scale

使用SGD(Stochastic Gradient Descent)进行大规模机器学习 1 基于梯度下降的学习对于一个简单的机器学习算法，每一个样例包含了一个(x,y)对，其中一个输入x和一个数值输出y。我们考虑损失函数,它描述了预测值和实际值y之 ...

2012-05-11 23:01
浏览 44197
评论(2)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] 开源软件/代码链接合集

[置顶] paper and book阅读

Tutorials on topics in machine learning

LingPipe White Papers

Standord NLP组整理的NLP工具、资源列表

一些机器学习公开课

[zz]推荐系统-从入门到精通

2012年读的一些书

机器学习在公司的分享

Deep learning的一些教程[rz]

[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接

Deep learning的一些有用链接

期望最大（EM）算法推导

信息论学习总结（一）基础知识

使用SGD(Stochastic Gradient Descent)进行大规模机器学习

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>