- 浏览: 209479 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (391)
- java (18)
- python (3)
- ruby (4)
- linux (48)
- 网络 (9)
- 前端 (2)
- 社会、文化、哲学、人生、百态 (0)
- 工具 (10)
- 下载 (0)
- 常用地址 (0)
- tracert (0)
- mysql (8)
- 开源相关收藏 (1)
- 模块查看依懒 (1)
- watch使用 (1)
- Tcpdump (2)
- easy_install安装 (1)
- 构造redis批量删除脚本 (1)
- MYSQL 性能测试 (1)
- JAVA code encode utf-8 (1)
- linux nginx awk 实时 每妙 (1)
- mkpasswd (1)
- spring security oauth (1)
- jmap dump java memory Analyzer (1)
- JAVA DUMP (1)
- swap linux 过高 解决 (1)
- SWAP (1)
- jmap jstat jstack dump (1)
- java jconsole 的使用 (1)
- git 常用 (1)
- MYSQL 索引 动态 唯一 (1)
- TCP 三次握手 四次挥手 (1)
- linux date (1)
- 删除 空行 注释行 (1)
- maven3 yum linux install repository (1)
- linux git 搭建 (1)
- linux sar eth1 查看 流量 (1)
- sar (1)
- netstat ip 过滤 常用脚本 (1)
- Tcpdump 包分析网络连接过程 (1)
- net ipv4 tcp time wait tw recycle (0)
- /etc/sysctl.conf linux 网络 配置 (1)
- ss 网络连接查看 (比netstat 快很多,实时性牺牲) (1)
- MYSQL 关键字 (1)
- Linux 下多核CPU知识 (1)
- top (1)
- 令牌 证书 (1)
- mysql unix timestamp (1)
- 端口扫描 nc nmap (1)
- 204 http code 状态码 (1)
- ss -s ss -l (1)
- linux 常用 curl (1)
- linux sed 替换 换行 (1)
- centos yum install rpm install (1)
- spring-mvc源码解读 (1)
- 使用iftop查看实时的网络流量 (0)
- linux 命令 expect (1)
- HTTP (1)
- openssl ddif 加密 (1)
- iptables 详解 (1)
- python 虚拟化 VirtualEnv virtualenvwrapper (1)
- nginx (2)
- more less 实用技巧 (1)
- linux nginx (2)
- linux curl https ssl 证书 ca (1)
- openssl (1)
- php mysql linux (1)
- linux 虚拟机 虚拟 xen (0)
- linux 虚拟机 虚拟 xen kvm (1)
- linux perl 单行执行技巧 (1)
- mysql 查看库占用空间 表查用空间 (1)
- linux tcpdump (1)
- maven (1)
- sun.misc.Unsafe (1)
- OpenSSL生成证书 (1)
- http://blog.csdn.net/zzulp/article/details/8018751 (1)
- maven 本地 jar dependency (1)
- 计算JAVA代码行数最简单命令 sed (1)
- 常用的证书格式转换 rsa eg (1)
- 加密 解密 签名 (1)
- 分析jar包冲突 (1)
- 使用JMockit编写java单元测试 (1)
- Linux 技巧:让进程在后台可靠运行的几种方法 (1)
- 环境变量控制 (1)
- 5+ 个 tar 命令的用法,附示例 (1)
- scp自动输入密码 (1)
- ps axo pid (1)
- ppid (1)
- comm (1)
- pmem (1)
- lstart|grep mysql (0)
- lstart (1)
- etime|grep mysql (1)
- UML类图字少好理解 (1)
- HTTP经典文章 (1)
- git (1)
- Git常用命令 (1)
- LINUX 系统被攻击的分析过程 (1)
- NIO (1)
- LINUX 操作快捷键使用 (1)
- openSSL命令、PKI、CA、SSL证书原理 (1)
- shell (2)
- 转载 (1)
- mysqldump 可以直接dump->xml (1)
- VIM比较全面的文章 (1)
- eclipse regex 正则表达式 (1)
- synchronized (1)
- 锁 (1)
- java 正则表达式 regex (1)
- Reference Queue 引用 源码 (1)
- spring aop 源码 分析 (1)
- java @Cache @Transaction 注解 (1)
- spring aop (1)
- spring jdk proxy cglib 动态代理 性能比较 (1)
- spring proxy private public 代理限制 (1)
- spring transaction aop 事务 (1)
- spring autowire 注解注入 (1)
- 桥接 NAT NAT地址转换 内部网络 虚拟网络 (1)
- spring-web-mvc 源码解读 之 RequestMappingHandlerMapping (1)
- find atime mtime ctime -n n +n (1)
- android studio 快捷键初探 (1)
- android 源码阅读的计划 (1)
- 计算机网络学习-VLAN (1)
- sed 高级 合并行 (1)
- CAP 一致性 可用性 分布式容错性 (1)
- android lib so 库文件 (0)
- android lib so 库文件 移植 (1)
- android 不错的博文 (1)
- sourceinsight 源码 阅读 (1)
- Android Tab UI (1)
- 诗 (1)
- mysql 批处理 (0)
- netty 堆外内存 DirectByteBuffer (1)
- netty 并发 百万 推送 (1)
- Linux操作系统中内存buffer和cache的区别 (1)
- maven intellij target bytecode version (1)
- linux sleep()的实现原理 (1)
- android (2)
- javadoc 代码注释规范 (1)
- spring 自动注入bean auto (1)
- Photoshop CS6常用快捷键 (1)
- 股票 数据 机器 分析 (1)
- 批处理 (1)
- mysql -e (1)
- char (1)
- Unicode (1)
- 编码 (1)
- utf8 (1)
- utf-8 (1)
- utf16 (1)
- utf-16 (1)
- IntelliJ IDEA (1)
- ide (1)
- idea (1)
- intellij (1)
- 文件 (1)
- 目录 (1)
- 源代码 (1)
- CountDownLatch (1)
- CyclicBarrier (1)
- Semaphore (1)
- spring (1)
- linux 查看不同进制文件 (1)
- WebMvcConfigurationSupport (1)
- sdkman工具的使用 (1)
- http header (1)
- LINUX系统优化 (1)
最新评论
-
gelongmei:
威武我大酒神
shell脚本不换行刷新数据
机器学习经典书籍&论文
《转》
论文学习
入门书单
《数学之美》 PDF6
作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。
《Programming Collective Intelligence》(《集体智慧编程》)PDF3
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。
《Algorithms of the Intelligent Web》(《智能web算法》)PDF1
作者Haralambos Marmanis、Dmitry Babenko。这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。不足的地方在于里面的配套代码是BeanShell而不是python或其他。总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代码,了解算法主要思想就行了。
《统计学习方法》 PDF 模糊 epub3
作者李航,是国内机器学习领域的几个大家之一,曾在MSRA任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。
《Machine Learning》(《机器学习》) PDF7
作者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如PRML。但有些基础的经典还是不会过时的,所以这本书现在几乎是机器学习的必读书目。
《Mining of Massive Datasets》(《大数据》) PDF19
作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比较长,读者要用心了。
《Data Mining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》) PDF16
作者Ian H. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。他们的《ManagingGigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。
《机器学习及其应用》
周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础的才能看懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议是发现研究趋势的方法嘛。
《Managing Gigabytes》(深入搜索引擎)PDF8
信息检索不错的书。
《Modern Information Retrieval》 PDF6
Ricardo Baeza-Yates et al. 1999。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。
《推荐系统实践》 PDF13
项亮,不错的入门读物
深入
《Pattern Classification》(《模式分类》第二版) PDF14
作者Richard O. Duda[5]、Peter E. Hart、David。模式识别的奠基之作,但对最近呈主导地位的较好的方法SVM、Boosting方法没有介绍,被评“挂一漏万之嫌”。
《Pattern Recognition And Machine Learning》 PDF74
作者Christopher M. Bishop[6];简称PRML,侧重于概率模型,是贝叶斯方法的扛鼎之作,据评“具有强烈的工程气息,可以配合stanford 大学 Andrew Ng 教授的 Machine Learning 视频教程一起来学,效果翻倍。”
《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《统计学习基础:数据挖掘、推理与预测》第二版) PDF8
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“这本书的作者是Boosting方法最活跃的几个研究人员,发明的Gradient Boosting提出了理解Boosting方法的新角度,极大扩展了Boosting方法的应用范围。这本书对当前最为流行的方法有比较全面深入的介绍,对工程人员参考价值也许要更大一点。另一方面,它不仅总结了已经成熟了的一些技术,而且对尚在发展中的一些议题也有简明扼要的论述。让读者充分体会到机器学习是一个仍然非常活跃的研究领域,应该会让学术研究人员也有常读常新的感受。”[7]
《Data Mining:Concepts andTechniques》(《数据挖掘:概念与技术》第三版) PDF3
作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是华裔。本书毫无疑问是数据挖掘方面的的经典之作,不过翻译版总是被喷,没办法,大部分翻译过来的书籍都被喷,想要不吃别人嚼过的东西,就好好学习英文吧。
《AI, Modern Approach 2nd》 PDF8
Peter Norvig,无争议的领域经典。
《Foundations of Statistical Natural Language Processing》 PDF7
自然语言处理领域公认经典。
《Information Theory:Inference and Learning Algorithms》 PDF5
《Statistical Learning Theory》 PDF7
Vapnik的大作,统计学界的权威,本书将理论上升到了哲学层面,他的另一本书《The Nature ofStatistical Learning Theory》也是统计学习研究不可多得的好书,但是这两本书都比较深入,适合有一定基础的读者。
数学基础
《矩阵分析》 PDF22
Roger Horn。矩阵分析领域无争议的经典
《概率论及其应用》 PDF3
威廉·费勒。极牛的书,可数学味道太重,不适合做机器学习的
《All Of Statistics》 PDF 扫描版10 PDF
高清版18
机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。
《Nonlinear Programming, 2nd》 PDF5
最优化方法,非线性规划的参考书。
《Convex Optimization》 PDF9 配套代码7
Boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书。
《Numerical Optimization》 PDF6
第二版,Nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。
《Introduction to Mathematical Statistics》 PDF5
第六版,Hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ML,Bayesian方法等内容。
《An Introduction to Probabilistic Graphical Models》 PDF20
Jordan著,本书介绍了条件独立、分解、混合、条件混合等图模型中的基本概念,对隐变量(潜在变量)也做了详细介绍,相信大家在隐马尔科夫链和用Gaussian混合模型来实现EM算法时遇到过这个概念。
《Probabilistic Graphical Models-Principles and Techniques》 PDF8
Koller著,一本很厚很全面的书,理论性很强,可以作为参考书使用。
具体数学 PDF5
经典
大家的补充
线性代数 (Linear Algebra):
我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是
Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.
这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。我个人觉得,学习线性代数,最重要的不是去熟练矩阵运算和解方程的方法——这些在实际工作中MATLAB可以代劳,关键的是要深入理解几个基础而又重要的概念:子空间(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和线性变换(Linear transform)。从我的角度看来,一本线代教科书的质量,就在于它能否给这些根本概念以足够的重视,能否把它们的联系讲清楚。Strang的这本书在这方面是做得很好的。
而且,这本书有个得天独厚的优势。书的作者长期在MIT讲授线性代数课(18.06),课程的video在MIT的Open courseware网站上有提供。有时间的朋友可以一边看着名师授课的录像,一边对照课本学习或者复习。
http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm8
概率和统计 (Probability and Statistics):
概率论和统计的入门教科书很多,我目前也没有特别的推荐。我在这里想介绍的是一本关于多元统计的基础教科书:
Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern
这本书是我在刚接触向量统计的时候用于学习的,我在香港时做研究的基础就是从此打下了。实验室的一些同学也借用这本书学习向量统计。这本书没有特别追求数学上的深度,而是以通俗易懂的方式讲述主要的基本概念,读起来很舒服,内容也很实用。对于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)这些Learning中的基本方法也展开了初步的论述。
之后就可以进一步深入学习贝叶斯统计和Graphical models。一本理想的书是
Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.
我不知道这本书是不是已经出版了(不要和Learning in Graphical Models混淆,那是个论文集,不适合初学)。这本书从基本的贝叶斯统计模型出发一直深入到复杂的统计网络的估计和推断,深入浅出,statistical learning的许多重要方面都在此书有清楚论述和详细讲解。MIT内部可以access,至于外面,好像也是有电子版的。
分析 (Analysis):
我想大家基本都在大学就学过微积分或者数学分析,深度和广度则随各个学校而异了。这个领域是很多学科的基础,值得推荐的教科书莫过于
Principles of Mathematical Analysis, by Walter Rudin
有点老,但是绝对经典,深入透彻。缺点就是比较艰深——这是Rudin的书的一贯风格,适合于有一定基础后回头去看。
在分析这个方向,接下来就是泛函分析(Functional Analysis)。
Introductory Functional Analysis with Applications, by Erwin Kreyszig.
适合作为泛函的基础教材,容易切入而不失全面。我特别喜欢它对于谱论和算子理论的特别关注,这对于做learning的研究是特别重要的。Rudin也有一本关于functional analysis的书,那本书在数学上可能更为深刻,但是不易于上手,所讲内容和learning的切合度不如此书。
在分析这个方向,还有一个重要的学科是测度理论(Measure theory),但是我看过的书里面目前还没有感觉有特别值得介绍的。
拓扑 (Topology):
在我读过的基本拓扑书各有特色,但是综合而言,我最推崇:
Topology (2nd Ed.) by James Munkres
这本书是Munkres教授长期执教MIT拓扑课的心血所凝。对于一般拓扑学(General topology)有全面介绍,而对于代数拓扑(Algebraic topology)也有适度的探讨。此书不需要特别的数学知识就可以开始学习,由浅入深,从最基本的集合论概念(很多书不屑讲这个)到Nagata-Smirnov Theorem和Tychonoff theorem等较深的定理(很多书避开了这个)都覆盖了。讲述方式思想性很强,对于很多定理,除了给出证明过程和引导你思考其背后的原理脉络,很多令人赞叹的亮点——我常读得忘却饥饿,不愿释手。很多习题很有水平。
流形理论 (Manifold theory):
对于拓扑和分析有一定把握时,方可开始学习流形理论,否则所学只能流于浮浅。我所使用的书是
Introduction to Smooth Manifolds. by John M. Lee
虽然书名有introduction这个单词,但是实际上此书涉入很深,除了讲授了基本的manifold, tangent space, bundle, sub-manifold等,还探讨了诸如纲理论(Category theory),德拉姆上同调(De Rham cohomology)和积分流形等一些比较高级的专题。对于李群和李代数也有相当多的讨论。行文通俗而又不失严谨,不过对某些记号方式需要熟悉一下。
虽然李群论是建基于平滑流形的概念之上,不过,也可能从矩阵出发直接学习李群和李代数——这种方法对于急需使用李群论解决问题的朋友可能更加实用。而且,对于一个问题从不同角度看待也利于加深理解。下面一本书就是这个方向的典范:
Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall
此书从开始即从矩阵切入,从代数而非几何角度引入矩阵李群的概念。并通过定义运算的方式建立exponential mapping,并就此引入李代数。这种方式比起传统的通过“左不变向量场(Left-invariant vector field)“的方式定义李代数更容易为人所接受,也更容易揭示李代数的意义。最后,也有专门的论述把这种新的定义方式和传统方式联系起来。
机器学习经典书籍&论文
转自水木
除了以下推荐的书以外,出版在Foundations and Trends in Machine Learning上面的survey文章都值得一看。
入门:
Pattern Recognition And Machine Learning
Christopher M. Bishop
Machine Learning : A Probabilistic Perspective
Kevin P. Murphy
The Elements of Statistical Learning : Data Mining, Inference, and Predictio
n
Trevor Hastie, Robert Tibshirani, Jerome Friedman
Information Theory, Inference and Learning Algorithms
David J. C. MacKay
All of Statistics : A Concise Course in Statistical Inference
Larry Wasserman
优化:
Convex Optimization
Stephen Boyd, Lieven Vandenberghe
Numerical Optimization
Jorge Nocedal, Stephen Wright
Optimization for Machine Learning
Suvrit Sra, Sebastian Nowozin, Stephen J. Wright
核方法:
Kernel Methods for Pattern Analysis
John Shawe-Taylor, Nello Cristianini
Learning with Kernels : Support Vector Machines, Regularization, Optimizatio
n, and Beyond
Bernhard Schlkopf, Alexander J. Smola
半监督:
Semi-Supervised Learning
Olivier Chapelle
高斯过程:
Gaussian Processes for Machine Learning (Adaptive Computation and Machine Le
arning)
Carl Edward Rasmussen, Christopher K. I. Williams
概率图模型:
Graphical Models, Exponential Families, and Variational Inference
Martin J Wainwright, Michael I Jordan
Boosting:
Boosting : Foundations and Algorithms
Schapire, Robert E.; Freund, Yoav
贝叶斯:
Statistical Decision Theory and Bayesian Analysis
James O. Berger
The Bayesian Choice : From Decision-Theoretic Foundations to Computational I
mplementation
Christian P. Robert
Bayesian Nonparametrics
Nils Lid Hjort, Chris Holmes, Peter Müller, Stephen G. Walker
Principles of Uncertainty
Joseph B. Kadane
Decision Theory : Principles and Approaches
Giovanni Parmigiani, Lurdes Inoue
蒙特卡洛:
Monte Carlo Strategies in Scientific Computing
Jun S. Liu
Monte Carlo Statistical Methods
Christian P.Robert, George Casella
信息几何:
Methods of Information Geometry
Shun-Ichi Amari, Hiroshi Nagaoka
Algebraic Geometry and Statistical Learning Theory
Watanabe, Sumio
Differential Geometry and Statistics
M.K. Murray, J.W. Rice
渐进收敛:
Asymptotic Statistics
A. W. van der Vaart
Empirical Processes in M-estimation
Geer, Sara A. van de
不推荐:
Statistical Learning Theory
Vladimir N. Vapnik
Bayesian Data Analysis, Second Edition
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin
Probabilistic Graphical Models : Principles and Techniques
Daphne Koller, Nir Friedman
机器学习经典论文/survey合集
Active Learning
Two Faces of Active Learning50, Dasgupta, 2011
Active Learning Literature Survey8, Settles, 2010
Applications
A Survey of Emerging Approaches to Spam Filtering9, Caruana, 2012
Ambient Intelligence: A Survey3, Sadri, 2011
A Survey of Online Failure Prediction Methods2, Salfner, 2010
Anomaly Detection: A Survey3, Chandola, 2009
Mining Data Streams: A Review4, Gaber, 2005
Workflow Mining: A Survey of Issues and Approaches2, Aalst, 2003
Biology
Support Vector Machines in Bioinformatics: a Survey12, Chicco, 2012
Computational Epigenetics: The New Scientific Paradigm 3, Lim, 2010
Automated Protein Structure Classification: A Survey4, Hassanzadeh, 2009
Chemoinformatics - An Introduction for Computer Scientists3, Brown, 2009
Computational Challenges in Systems Biology2, Heath, 2009
Computational Epigenetics 3, Bock, 2008
Progress and Challenges in Protein Structure Prediction3, Zhang, 2008
A Review of Feature Selection in Bioinformatics4, Saeys, 2007
Machine Learning in Bioinformatics: A Brief Survey and Recommendations for Practitioners6, Bhaskar, 2006
Bioinformatics - An Introduction for Computer Scientists1, Cohen, 2004
Computational Systems Biology2, Kitano, 2002
Protein Structure Prediction and Structural Genomics2, Baker, 2001
Recent Developments and Future Directions in Computational Genomics1, Tsoka, 2000
Molecular Biology for Computer Scientists1, Hunter, 1993
Classification
Supervised Machine Learning: A Review of Classification Techniques22, Kotsiantis, 2007
Clustering
XML Data Clustering: An Overview4, Algergawy, 2011
Data Clustering: 50 Years Beyond K-Means6, Jain, 2010
Clustering Stability: An Overview5, Luxburg, 2010
Parallel Clustering Algorithms: A Survey4, Kim, 2009
A Survey: Clustering Ensembles Techniques2, Ghaemi, 2009
A Tutorial on Spectral Clustering4, Luxburg, 2007
Survey of Clustering Data Mining Techniques4, Berkhin, 2006
Survey of Clustering Algorithms4, Xu, 2005
Clustering of Time Series Data - A Survey3, Liao, 2005
Clustering Methods4, Rokach, 2005
Recent Advances in Clustering: A Brief Survey2, Kotsiantis, 2004
Subspace Clustering for High Dimensional Data: A Review2, Parsons, 2004
Unsupervised and Semi-supervised Clustering: a Brief Survey3, Grira, 2004
Clustering in Life Sciences3, Zhao, 2002
On Clustering Validation Techniques2, Halkidi, 2001
Data Clustering: A Review3, Jain, 1999
A Survey of Fuzzy Clustering4, Yang, 1993
Computer Vision
Pedestrian Detection: An Evaluation of the State of the Art7, Dollar, 2012
A Comparative Study of Palmprint Recognition Algorithms3, Zhang, 2012
Human Activity Analysis: A Review2, Aggarwal, 2011
Subspace Methods for Face Recognition2, Rao, 2010
Context Based Object Categorization: A Critical Survey2, Galleguillos, 2010
Object tracking: A Survey3, Yilmaz, 2006
Detecting Faces in Images: A Survey2, Yang, 2002
Databases
Data Fusion3, Bleiholder, 2008
Duplicate Record Detection: A Survey2, Elmagarmid, 2007
Overview of Record Linkage and Current Research Directions2, Winkler, 2006
A Survey of Schema-based Matching Approaches3, Shvaiko, 2005
Deep Learning
Representation Learning: A Review and New Perspectives17, Bengio, 2012
Dimension Reduction
Dimensionality Reduction: A Comparative Review6, Maaten, 2009
Dimension Reduction: A Guided Tour4, Burges, 2009
A Survey of Manifold-Based Learning Methods2, Huo, 2007
Toward Integrating Feature Selection Algorithms for Classification and Clustering3, Liu, 2005
An Introduction to Variable and Feature Selection3, Guyon, 2003
A Survey of Dimension Reduction Techniques2, Fodor, 2002
Economics
Auctions and Bidding: A Guide for Computer Scientists1, Parsons, 2011
Computational Sustainability1, Gomes, 2009
Computational Finance1, Tsang, 2004
Game Theory
Computer Poker: A Review4, Rubin, 2011
Graphical Models
An Introduction to Variational Methods for Graphical Models5, Jordan, 1999
Kernel Methods
Kernels for Vector-Valued Functions: a Review4, Alvarez, 2012
Learning Theory
Introduction to Statistical Learning Theory7, Bousquet, 2004
Machine Learning
A Few Useful Things to Know about Machine Learning7, Domingos, 2012
A Tutorial on Bayesian Nonparametric Models4, Blei, 2011
Decision Forests for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning2, Criminisi, 2011
Top 10 Algorithms in Data Mining4, Wu, 2008
Semi-Supervised Learning Literature Survey, Zhu, 2007
Interestingness Measures for Data Mining: A Survey, Geng, 2006
A Survey of Interestingness Measures for Knowledge Discovery1, McGarry, 2005
A Tutorial on the Cross-Entropy Method, Boer, 2005
A Survey of Kernels for Structured Data, Gartner, 2003
Survey on Frequent Pattern Mining, Goethals, 2003
The Boosting Approach to Machine Learning: An Overview1, Schapire, 2003
A Survey on Wavelet Applications in Data Mining, Li, 2002
Mathematics
Topology and Data3, Carlsson, 2009
Multi-armed Bandit
Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems3, Bubeck, 2012
Natural Computing
Reservoir Computing Approaches to Recurrent Neural Network Training, Jaeger, 2009
Artificial Immune Systems, Aickelin, 2005
A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery, Freitas?? , 2003
Data Mining in Soft Computing Framework: A Survey, Mitra, 2002
Neural Networks for Classification: A Survey1, Zhang, 2000
Natural Language Processing
Probabilistic Topic Models2, Blei, 2012
Ontology Learning From Text: A Look Back And Into The Future1, Wong, 2012
Machine Transliteration Survey, Karimi, 2011
Translation Techniques in Cross-Language Information Retrieval, Zhou, 2011
Comprehensive Review of Opinion Summarization, Kim, 2011
A Survey on Sentiment Detection of Reviews, Tang, 2009
Word Sense Desambiguation: A Survey, Navigli, 2009
Topic Models, Blei, 2009
Opinion Mining and Sentiment Analysis, Pang, 2008
Information Extraction, Sarawagi, 2008
Statistical Machine Translation, Lopez, 2008
A Survey of Named Entity Recognition and Classification, Nadeau, 2007
Adaptive Information Extraction, Turmo, 2006
Survey of Text Clustering, Jing, 2005
Machine Learning in Automated Text Categorization, Sebastiani, 2002
Web Mining Research: A Survey, Kosala, 2000
Networks
Community Detection in Graphs1, Fortunato, 2010
A Survey of Statistical Network Models, Goldenberg, 2010
Communities in Networks, Porter, 2009
Graph Clustering, Schaeffer, 2007
Graph Mining: Laws, Generators, and Algorithms, Chakrabarti, 2006
Comparing Community Structure Identification, Danon, 2005
Link Mining: A Survey1, Getoor, 2005
Detecting Community Structure in Networks, Newman, 2004
Link Mining: A New Data Mining Challenge, Getoor, 2003
On-Line Learning
On-Line Algorithms in Machine Learning1, Blum, 1998
Others
A Survey of Very Large-Scale Neighborhood Search Techniques, Ahuja, 2001
Planning and Scheduling
A Review of Machine Learning for Automated Planning1, Jimenez, 2009
Probabilistic
Approximate Policy Iteration: A Survey and Some New Methods, Bertsekas, 2011
An Introduction to MCMC for Machine Learning1, Andrieu, 2003
Probabilistic Models
An Introduction to Conditional Random Fields1, Sutton, 2010
Randomized Algorithms
Randomized Algorithms for Matrices and Data1, Mahoney, 2011
Recommender Systems
Recent advances in Personalized Recommender Systems1, Liu, 2009
Matrix Factorization Techniques for Recommender Systems1, Koren, 2009
A Survey of Collaborative Filtering Techniques1, Su, 2009
Regression
Ensemble Approaches for Regression: a Survey4, Moreira, 2012
Reinforcement Learning
A Survey of Reinforcement Learning in Relational Domains1, Otterlo, 2005
Reinforcement Learning: A Survey, Kaelbling, 1996
Rule Learning
Association Mining, Ceglar, 2006
Algorithms for Association Rule Mining - A General Survey and Comparison, Hipp, 2000
Testing
Controlled Experiments on the Web: Survey and Practical Guide, Kohavi, 2009
Time Series
Time-Series Data Mining2, Esling, 2012
A Review on Time Series Data Mining1, Fu, 2011
Discrete Wavelet Transform-Based Time Series Analysis and Mining, Chaovalit, 2011
Transfer Learning
A Survey on Transfer Learning, Pan, 2010
Web Mining
A Taxonomy of Sequential Pattern Mining Algorithms, Mabroukeh, 2010
A Survey of Web Clustering Engines, Carpineto, 2009
Web Page Classification: Features and Algorithms, Qi, 2009
Mining Interesting Knowledge from Weblogs: A Survey, Facca, 2005
An Overview of Web Data Clustering Practices, Vakali, 2005
A Survey of Web Metrics, Dhyani, 2002
Data Mining for Hypertext: A Tutorial Survey3, Chakrabarti, 2000
论文学习
入门书单
《数学之美》 PDF6
作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。
《Programming Collective Intelligence》(《集体智慧编程》)PDF3
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。
《Algorithms of the Intelligent Web》(《智能web算法》)PDF1
作者Haralambos Marmanis、Dmitry Babenko。这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。不足的地方在于里面的配套代码是BeanShell而不是python或其他。总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代码,了解算法主要思想就行了。
《统计学习方法》 PDF 模糊 epub3
作者李航,是国内机器学习领域的几个大家之一,曾在MSRA任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。
《Machine Learning》(《机器学习》) PDF7
作者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如PRML。但有些基础的经典还是不会过时的,所以这本书现在几乎是机器学习的必读书目。
《Mining of Massive Datasets》(《大数据》) PDF19
作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比较长,读者要用心了。
《Data Mining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》) PDF16
作者Ian H. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。他们的《ManagingGigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。
《机器学习及其应用》
周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础的才能看懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议是发现研究趋势的方法嘛。
《Managing Gigabytes》(深入搜索引擎)PDF8
信息检索不错的书。
《Modern Information Retrieval》 PDF6
Ricardo Baeza-Yates et al. 1999。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。
《推荐系统实践》 PDF13
项亮,不错的入门读物
深入
《Pattern Classification》(《模式分类》第二版) PDF14
作者Richard O. Duda[5]、Peter E. Hart、David。模式识别的奠基之作,但对最近呈主导地位的较好的方法SVM、Boosting方法没有介绍,被评“挂一漏万之嫌”。
《Pattern Recognition And Machine Learning》 PDF74
作者Christopher M. Bishop[6];简称PRML,侧重于概率模型,是贝叶斯方法的扛鼎之作,据评“具有强烈的工程气息,可以配合stanford 大学 Andrew Ng 教授的 Machine Learning 视频教程一起来学,效果翻倍。”
《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《统计学习基础:数据挖掘、推理与预测》第二版) PDF8
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“这本书的作者是Boosting方法最活跃的几个研究人员,发明的Gradient Boosting提出了理解Boosting方法的新角度,极大扩展了Boosting方法的应用范围。这本书对当前最为流行的方法有比较全面深入的介绍,对工程人员参考价值也许要更大一点。另一方面,它不仅总结了已经成熟了的一些技术,而且对尚在发展中的一些议题也有简明扼要的论述。让读者充分体会到机器学习是一个仍然非常活跃的研究领域,应该会让学术研究人员也有常读常新的感受。”[7]
《Data Mining:Concepts andTechniques》(《数据挖掘:概念与技术》第三版) PDF3
作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是华裔。本书毫无疑问是数据挖掘方面的的经典之作,不过翻译版总是被喷,没办法,大部分翻译过来的书籍都被喷,想要不吃别人嚼过的东西,就好好学习英文吧。
《AI, Modern Approach 2nd》 PDF8
Peter Norvig,无争议的领域经典。
《Foundations of Statistical Natural Language Processing》 PDF7
自然语言处理领域公认经典。
《Information Theory:Inference and Learning Algorithms》 PDF5
《Statistical Learning Theory》 PDF7
Vapnik的大作,统计学界的权威,本书将理论上升到了哲学层面,他的另一本书《The Nature ofStatistical Learning Theory》也是统计学习研究不可多得的好书,但是这两本书都比较深入,适合有一定基础的读者。
数学基础
《矩阵分析》 PDF22
Roger Horn。矩阵分析领域无争议的经典
《概率论及其应用》 PDF3
威廉·费勒。极牛的书,可数学味道太重,不适合做机器学习的
《All Of Statistics》 PDF 扫描版10 PDF
高清版18
机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。
《Nonlinear Programming, 2nd》 PDF5
最优化方法,非线性规划的参考书。
《Convex Optimization》 PDF9 配套代码7
Boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书。
《Numerical Optimization》 PDF6
第二版,Nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。
《Introduction to Mathematical Statistics》 PDF5
第六版,Hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ML,Bayesian方法等内容。
《An Introduction to Probabilistic Graphical Models》 PDF20
Jordan著,本书介绍了条件独立、分解、混合、条件混合等图模型中的基本概念,对隐变量(潜在变量)也做了详细介绍,相信大家在隐马尔科夫链和用Gaussian混合模型来实现EM算法时遇到过这个概念。
《Probabilistic Graphical Models-Principles and Techniques》 PDF8
Koller著,一本很厚很全面的书,理论性很强,可以作为参考书使用。
具体数学 PDF5
经典
大家的补充
线性代数 (Linear Algebra):
我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是
Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.
这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。我个人觉得,学习线性代数,最重要的不是去熟练矩阵运算和解方程的方法——这些在实际工作中MATLAB可以代劳,关键的是要深入理解几个基础而又重要的概念:子空间(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和线性变换(Linear transform)。从我的角度看来,一本线代教科书的质量,就在于它能否给这些根本概念以足够的重视,能否把它们的联系讲清楚。Strang的这本书在这方面是做得很好的。
而且,这本书有个得天独厚的优势。书的作者长期在MIT讲授线性代数课(18.06),课程的video在MIT的Open courseware网站上有提供。有时间的朋友可以一边看着名师授课的录像,一边对照课本学习或者复习。
http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm8
概率和统计 (Probability and Statistics):
概率论和统计的入门教科书很多,我目前也没有特别的推荐。我在这里想介绍的是一本关于多元统计的基础教科书:
Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern
这本书是我在刚接触向量统计的时候用于学习的,我在香港时做研究的基础就是从此打下了。实验室的一些同学也借用这本书学习向量统计。这本书没有特别追求数学上的深度,而是以通俗易懂的方式讲述主要的基本概念,读起来很舒服,内容也很实用。对于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)这些Learning中的基本方法也展开了初步的论述。
之后就可以进一步深入学习贝叶斯统计和Graphical models。一本理想的书是
Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.
我不知道这本书是不是已经出版了(不要和Learning in Graphical Models混淆,那是个论文集,不适合初学)。这本书从基本的贝叶斯统计模型出发一直深入到复杂的统计网络的估计和推断,深入浅出,statistical learning的许多重要方面都在此书有清楚论述和详细讲解。MIT内部可以access,至于外面,好像也是有电子版的。
分析 (Analysis):
我想大家基本都在大学就学过微积分或者数学分析,深度和广度则随各个学校而异了。这个领域是很多学科的基础,值得推荐的教科书莫过于
Principles of Mathematical Analysis, by Walter Rudin
有点老,但是绝对经典,深入透彻。缺点就是比较艰深——这是Rudin的书的一贯风格,适合于有一定基础后回头去看。
在分析这个方向,接下来就是泛函分析(Functional Analysis)。
Introductory Functional Analysis with Applications, by Erwin Kreyszig.
适合作为泛函的基础教材,容易切入而不失全面。我特别喜欢它对于谱论和算子理论的特别关注,这对于做learning的研究是特别重要的。Rudin也有一本关于functional analysis的书,那本书在数学上可能更为深刻,但是不易于上手,所讲内容和learning的切合度不如此书。
在分析这个方向,还有一个重要的学科是测度理论(Measure theory),但是我看过的书里面目前还没有感觉有特别值得介绍的。
拓扑 (Topology):
在我读过的基本拓扑书各有特色,但是综合而言,我最推崇:
Topology (2nd Ed.) by James Munkres
这本书是Munkres教授长期执教MIT拓扑课的心血所凝。对于一般拓扑学(General topology)有全面介绍,而对于代数拓扑(Algebraic topology)也有适度的探讨。此书不需要特别的数学知识就可以开始学习,由浅入深,从最基本的集合论概念(很多书不屑讲这个)到Nagata-Smirnov Theorem和Tychonoff theorem等较深的定理(很多书避开了这个)都覆盖了。讲述方式思想性很强,对于很多定理,除了给出证明过程和引导你思考其背后的原理脉络,很多令人赞叹的亮点——我常读得忘却饥饿,不愿释手。很多习题很有水平。
流形理论 (Manifold theory):
对于拓扑和分析有一定把握时,方可开始学习流形理论,否则所学只能流于浮浅。我所使用的书是
Introduction to Smooth Manifolds. by John M. Lee
虽然书名有introduction这个单词,但是实际上此书涉入很深,除了讲授了基本的manifold, tangent space, bundle, sub-manifold等,还探讨了诸如纲理论(Category theory),德拉姆上同调(De Rham cohomology)和积分流形等一些比较高级的专题。对于李群和李代数也有相当多的讨论。行文通俗而又不失严谨,不过对某些记号方式需要熟悉一下。
虽然李群论是建基于平滑流形的概念之上,不过,也可能从矩阵出发直接学习李群和李代数——这种方法对于急需使用李群论解决问题的朋友可能更加实用。而且,对于一个问题从不同角度看待也利于加深理解。下面一本书就是这个方向的典范:
Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall
此书从开始即从矩阵切入,从代数而非几何角度引入矩阵李群的概念。并通过定义运算的方式建立exponential mapping,并就此引入李代数。这种方式比起传统的通过“左不变向量场(Left-invariant vector field)“的方式定义李代数更容易为人所接受,也更容易揭示李代数的意义。最后,也有专门的论述把这种新的定义方式和传统方式联系起来。
机器学习经典书籍&论文
转自水木
除了以下推荐的书以外,出版在Foundations and Trends in Machine Learning上面的survey文章都值得一看。
入门:
Pattern Recognition And Machine Learning
Christopher M. Bishop
Machine Learning : A Probabilistic Perspective
Kevin P. Murphy
The Elements of Statistical Learning : Data Mining, Inference, and Predictio
n
Trevor Hastie, Robert Tibshirani, Jerome Friedman
Information Theory, Inference and Learning Algorithms
David J. C. MacKay
All of Statistics : A Concise Course in Statistical Inference
Larry Wasserman
优化:
Convex Optimization
Stephen Boyd, Lieven Vandenberghe
Numerical Optimization
Jorge Nocedal, Stephen Wright
Optimization for Machine Learning
Suvrit Sra, Sebastian Nowozin, Stephen J. Wright
核方法:
Kernel Methods for Pattern Analysis
John Shawe-Taylor, Nello Cristianini
Learning with Kernels : Support Vector Machines, Regularization, Optimizatio
n, and Beyond
Bernhard Schlkopf, Alexander J. Smola
半监督:
Semi-Supervised Learning
Olivier Chapelle
高斯过程:
Gaussian Processes for Machine Learning (Adaptive Computation and Machine Le
arning)
Carl Edward Rasmussen, Christopher K. I. Williams
概率图模型:
Graphical Models, Exponential Families, and Variational Inference
Martin J Wainwright, Michael I Jordan
Boosting:
Boosting : Foundations and Algorithms
Schapire, Robert E.; Freund, Yoav
贝叶斯:
Statistical Decision Theory and Bayesian Analysis
James O. Berger
The Bayesian Choice : From Decision-Theoretic Foundations to Computational I
mplementation
Christian P. Robert
Bayesian Nonparametrics
Nils Lid Hjort, Chris Holmes, Peter Müller, Stephen G. Walker
Principles of Uncertainty
Joseph B. Kadane
Decision Theory : Principles and Approaches
Giovanni Parmigiani, Lurdes Inoue
蒙特卡洛:
Monte Carlo Strategies in Scientific Computing
Jun S. Liu
Monte Carlo Statistical Methods
Christian P.Robert, George Casella
信息几何:
Methods of Information Geometry
Shun-Ichi Amari, Hiroshi Nagaoka
Algebraic Geometry and Statistical Learning Theory
Watanabe, Sumio
Differential Geometry and Statistics
M.K. Murray, J.W. Rice
渐进收敛:
Asymptotic Statistics
A. W. van der Vaart
Empirical Processes in M-estimation
Geer, Sara A. van de
不推荐:
Statistical Learning Theory
Vladimir N. Vapnik
Bayesian Data Analysis, Second Edition
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin
Probabilistic Graphical Models : Principles and Techniques
Daphne Koller, Nir Friedman
机器学习经典论文/survey合集
Active Learning
Two Faces of Active Learning50, Dasgupta, 2011
Active Learning Literature Survey8, Settles, 2010
Applications
A Survey of Emerging Approaches to Spam Filtering9, Caruana, 2012
Ambient Intelligence: A Survey3, Sadri, 2011
A Survey of Online Failure Prediction Methods2, Salfner, 2010
Anomaly Detection: A Survey3, Chandola, 2009
Mining Data Streams: A Review4, Gaber, 2005
Workflow Mining: A Survey of Issues and Approaches2, Aalst, 2003
Biology
Support Vector Machines in Bioinformatics: a Survey12, Chicco, 2012
Computational Epigenetics: The New Scientific Paradigm 3, Lim, 2010
Automated Protein Structure Classification: A Survey4, Hassanzadeh, 2009
Chemoinformatics - An Introduction for Computer Scientists3, Brown, 2009
Computational Challenges in Systems Biology2, Heath, 2009
Computational Epigenetics 3, Bock, 2008
Progress and Challenges in Protein Structure Prediction3, Zhang, 2008
A Review of Feature Selection in Bioinformatics4, Saeys, 2007
Machine Learning in Bioinformatics: A Brief Survey and Recommendations for Practitioners6, Bhaskar, 2006
Bioinformatics - An Introduction for Computer Scientists1, Cohen, 2004
Computational Systems Biology2, Kitano, 2002
Protein Structure Prediction and Structural Genomics2, Baker, 2001
Recent Developments and Future Directions in Computational Genomics1, Tsoka, 2000
Molecular Biology for Computer Scientists1, Hunter, 1993
Classification
Supervised Machine Learning: A Review of Classification Techniques22, Kotsiantis, 2007
Clustering
XML Data Clustering: An Overview4, Algergawy, 2011
Data Clustering: 50 Years Beyond K-Means6, Jain, 2010
Clustering Stability: An Overview5, Luxburg, 2010
Parallel Clustering Algorithms: A Survey4, Kim, 2009
A Survey: Clustering Ensembles Techniques2, Ghaemi, 2009
A Tutorial on Spectral Clustering4, Luxburg, 2007
Survey of Clustering Data Mining Techniques4, Berkhin, 2006
Survey of Clustering Algorithms4, Xu, 2005
Clustering of Time Series Data - A Survey3, Liao, 2005
Clustering Methods4, Rokach, 2005
Recent Advances in Clustering: A Brief Survey2, Kotsiantis, 2004
Subspace Clustering for High Dimensional Data: A Review2, Parsons, 2004
Unsupervised and Semi-supervised Clustering: a Brief Survey3, Grira, 2004
Clustering in Life Sciences3, Zhao, 2002
On Clustering Validation Techniques2, Halkidi, 2001
Data Clustering: A Review3, Jain, 1999
A Survey of Fuzzy Clustering4, Yang, 1993
Computer Vision
Pedestrian Detection: An Evaluation of the State of the Art7, Dollar, 2012
A Comparative Study of Palmprint Recognition Algorithms3, Zhang, 2012
Human Activity Analysis: A Review2, Aggarwal, 2011
Subspace Methods for Face Recognition2, Rao, 2010
Context Based Object Categorization: A Critical Survey2, Galleguillos, 2010
Object tracking: A Survey3, Yilmaz, 2006
Detecting Faces in Images: A Survey2, Yang, 2002
Databases
Data Fusion3, Bleiholder, 2008
Duplicate Record Detection: A Survey2, Elmagarmid, 2007
Overview of Record Linkage and Current Research Directions2, Winkler, 2006
A Survey of Schema-based Matching Approaches3, Shvaiko, 2005
Deep Learning
Representation Learning: A Review and New Perspectives17, Bengio, 2012
Dimension Reduction
Dimensionality Reduction: A Comparative Review6, Maaten, 2009
Dimension Reduction: A Guided Tour4, Burges, 2009
A Survey of Manifold-Based Learning Methods2, Huo, 2007
Toward Integrating Feature Selection Algorithms for Classification and Clustering3, Liu, 2005
An Introduction to Variable and Feature Selection3, Guyon, 2003
A Survey of Dimension Reduction Techniques2, Fodor, 2002
Economics
Auctions and Bidding: A Guide for Computer Scientists1, Parsons, 2011
Computational Sustainability1, Gomes, 2009
Computational Finance1, Tsang, 2004
Game Theory
Computer Poker: A Review4, Rubin, 2011
Graphical Models
An Introduction to Variational Methods for Graphical Models5, Jordan, 1999
Kernel Methods
Kernels for Vector-Valued Functions: a Review4, Alvarez, 2012
Learning Theory
Introduction to Statistical Learning Theory7, Bousquet, 2004
Machine Learning
A Few Useful Things to Know about Machine Learning7, Domingos, 2012
A Tutorial on Bayesian Nonparametric Models4, Blei, 2011
Decision Forests for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning2, Criminisi, 2011
Top 10 Algorithms in Data Mining4, Wu, 2008
Semi-Supervised Learning Literature Survey, Zhu, 2007
Interestingness Measures for Data Mining: A Survey, Geng, 2006
A Survey of Interestingness Measures for Knowledge Discovery1, McGarry, 2005
A Tutorial on the Cross-Entropy Method, Boer, 2005
A Survey of Kernels for Structured Data, Gartner, 2003
Survey on Frequent Pattern Mining, Goethals, 2003
The Boosting Approach to Machine Learning: An Overview1, Schapire, 2003
A Survey on Wavelet Applications in Data Mining, Li, 2002
Mathematics
Topology and Data3, Carlsson, 2009
Multi-armed Bandit
Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems3, Bubeck, 2012
Natural Computing
Reservoir Computing Approaches to Recurrent Neural Network Training, Jaeger, 2009
Artificial Immune Systems, Aickelin, 2005
A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery, Freitas?? , 2003
Data Mining in Soft Computing Framework: A Survey, Mitra, 2002
Neural Networks for Classification: A Survey1, Zhang, 2000
Natural Language Processing
Probabilistic Topic Models2, Blei, 2012
Ontology Learning From Text: A Look Back And Into The Future1, Wong, 2012
Machine Transliteration Survey, Karimi, 2011
Translation Techniques in Cross-Language Information Retrieval, Zhou, 2011
Comprehensive Review of Opinion Summarization, Kim, 2011
A Survey on Sentiment Detection of Reviews, Tang, 2009
Word Sense Desambiguation: A Survey, Navigli, 2009
Topic Models, Blei, 2009
Opinion Mining and Sentiment Analysis, Pang, 2008
Information Extraction, Sarawagi, 2008
Statistical Machine Translation, Lopez, 2008
A Survey of Named Entity Recognition and Classification, Nadeau, 2007
Adaptive Information Extraction, Turmo, 2006
Survey of Text Clustering, Jing, 2005
Machine Learning in Automated Text Categorization, Sebastiani, 2002
Web Mining Research: A Survey, Kosala, 2000
Networks
Community Detection in Graphs1, Fortunato, 2010
A Survey of Statistical Network Models, Goldenberg, 2010
Communities in Networks, Porter, 2009
Graph Clustering, Schaeffer, 2007
Graph Mining: Laws, Generators, and Algorithms, Chakrabarti, 2006
Comparing Community Structure Identification, Danon, 2005
Link Mining: A Survey1, Getoor, 2005
Detecting Community Structure in Networks, Newman, 2004
Link Mining: A New Data Mining Challenge, Getoor, 2003
On-Line Learning
On-Line Algorithms in Machine Learning1, Blum, 1998
Others
A Survey of Very Large-Scale Neighborhood Search Techniques, Ahuja, 2001
Planning and Scheduling
A Review of Machine Learning for Automated Planning1, Jimenez, 2009
Probabilistic
Approximate Policy Iteration: A Survey and Some New Methods, Bertsekas, 2011
An Introduction to MCMC for Machine Learning1, Andrieu, 2003
Probabilistic Models
An Introduction to Conditional Random Fields1, Sutton, 2010
Randomized Algorithms
Randomized Algorithms for Matrices and Data1, Mahoney, 2011
Recommender Systems
Recent advances in Personalized Recommender Systems1, Liu, 2009
Matrix Factorization Techniques for Recommender Systems1, Koren, 2009
A Survey of Collaborative Filtering Techniques1, Su, 2009
Regression
Ensemble Approaches for Regression: a Survey4, Moreira, 2012
Reinforcement Learning
A Survey of Reinforcement Learning in Relational Domains1, Otterlo, 2005
Reinforcement Learning: A Survey, Kaelbling, 1996
Rule Learning
Association Mining, Ceglar, 2006
Algorithms for Association Rule Mining - A General Survey and Comparison, Hipp, 2000
Testing
Controlled Experiments on the Web: Survey and Practical Guide, Kohavi, 2009
Time Series
Time-Series Data Mining2, Esling, 2012
A Review on Time Series Data Mining1, Fu, 2011
Discrete Wavelet Transform-Based Time Series Analysis and Mining, Chaovalit, 2011
Transfer Learning
A Survey on Transfer Learning, Pan, 2010
Web Mining
A Taxonomy of Sequential Pattern Mining Algorithms, Mabroukeh, 2010
A Survey of Web Clustering Engines, Carpineto, 2009
Web Page Classification: Features and Algorithms, Qi, 2009
Mining Interesting Knowledge from Weblogs: A Survey, Facca, 2005
An Overview of Web Data Clustering Practices, Vakali, 2005
A Survey of Web Metrics, Dhyani, 2002
Data Mining for Hypertext: A Tutorial Survey3, Chakrabarti, 2000
相关推荐
在本压缩包中,我们可以看到一系列与机器学习相关的资源,包括理论资料、论文、TensorFlow学习笔记以及PDF书籍。这些内容对于深入理解机器学习的概念、算法以及实践应用至关重要。接下来,我们将逐一探讨这些领域的...
同时,参加在线课程、阅读经典书籍和关注最新的研究论文也是提升技能的有效途径。 总结,《邹博小象机器学习全套代码讲义》是一份全面且实用的教程,无论你是机器学习的初学者还是有一定基础的学习者,都能从中获益...
最后,"论文"部分则涵盖了机器学习领域的最新研究成果。通过阅读这些论文,你可以了解前沿的理论框架、新的模型结构或者优化算法。尤其对于那些想要深入研究或进行创新的人来说,这些原始的科研文献是不可或缺的参考...
9. **书籍和指南**:电子版的机器学习和深度学习经典书籍,如《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》、《Deep Learning》等。 10. **新闻和动态**:订阅源或RSS链接,让用户了解...
【Python机器学习经典实例】这本书是一本以实践为导向的机器学习教程,旨在通过Python编程将机器学习算法应用于实际案例中。书中的阅读计划分为四个部分,涵盖了从数据预处理到推荐引擎的完整流程。 第一部分(第1~...
这些算法构成了机器学习的基础,对于初学者来说,理解它们的工作原理和应用场景至关重要。例如,决策树易于理解和解释,适合初学者入门;而SVM在处理高维数据和非线性问题上表现出色。逻辑回归则在许多实际应用中,...
《2014年国际机器学习大会ICML 2014 论文》则为我们提供了当年最前沿的机器学习研究成果。ICML(国际机器学习会议)是该领域的顶级会议,汇集了全球顶尖的研究者和从业者。2014年的论文可能涵盖了各种主题,包括深度...
4. **其他数学分支**:除了以上提到的,还有一些其他数学分支对机器学习和计算机视觉也有重要影响,如测度理论,虽然没有特别推荐的书籍,但它是理解概率论和随机过程的基础,对于处理离散和连续数据的模型至关重要...
7. **阅读材料**:推荐的相关书籍、论文和在线资源,供进一步研究。 8. **论坛或社区链接**:提供讨论平台,让学生互相交流,解答疑问。 学习这些内容,不仅需要理解数学基础(如线性代数、概率论和统计),还要...
这些是模式识别和机器学习中非常重要的算法,尤其是在处理不完全数据和时间序列数据方面。 3. 文中还提到了Scale-space理论、Zernike矩、各向异性扩散滤波等重要理论和技术。Scale-space理论用于分析图像结构随尺度...
* Machine Learning: A Probabilistic Perspective 是机器学习领域的经典教科书,基于统一的概率方法,对机器学习领域进行了全面而独立的介绍。 * 机器学习可以应用于图像识别、语音识别和自然语言处理等领域。 三...
Spark则是一个快速、通用和可扩展的数据处理引擎,它支持批处理、交互式查询(如Spark SQL)、实时流处理和机器学习,而且相比MapReduce,Spark提供了更高效的内存计算。 总之,Hadoop作为大数据处理的关键技术,其...
《机器学习理论导引》是一本深受欢迎的资源,它为学习者提供了深入理解机器学习概念的详尽指导。这本书,通常被称为“宝箱书”,不仅涵盖了基础理论,还提供了丰富的证明、案例分析以及相关参考文献,以帮助读者巩固...
1. **"A Survey on Anomaly Detection in Time Series Data"**:这篇论文回顾了时间序列异常检测的各种方法,包括统计方法、基于模型的方法和机器学习方法。 2. **"Isolation Forest"**:这篇经典论文提出了...
根据提供的文件信息,以下是对自然语言处理领域经典书籍知识点的详细说明: 《Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech ...
3. 书籍和论文推荐:列出一些关于强化学习的经典书籍和前沿研究论文,以供深入学习。 4. 学习路径和挑战:给出一个逐步学习强化学习的建议路径,可能包括一些实际挑战项目,帮助读者巩固所学知识。 通过这个压缩包...
通过参与在线课程、阅读专业书籍、复现经典论文以及实践Demo项目等方式,我们可以系统地学习人工智能技术。这些资源不仅有助于建立坚实的基础知识体系,还能激发创新思维,在实际工作中解决问题。希望每位学习者都能...
首先,文件提到的标题《柯尔莫哥洛夫概率论文集》直接指向了数学领域中的概率论,而描述则强调了这套论文集作为机器学习数学基础的重要性和经典地位。标签"probability"明确地指向了概率论这一主题。此外,文件中的...