Programming Collective Intelligence读书笔记一

fuliang

浏览: 1664171 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Data/Web Mining

读书算法 Google 搜索引擎互联网

这章主要讲了什么是Collective Intelligence，机器学习。开始举了一个DVD租赁公司基于以前客户租赁电影的历史记录来推荐电影，并悬赏1百万美金作为第一个能够提高推荐系统准确率10%的人，另一个是Google通过其他网页以一个网页的链接数来作为一个相关度的标准，这让Google的搜索结果比其他竞争对手好许多倍，并以此到2004年就占有搜索市场的85%。这两个例子都在说明从大量的不同的人群中搜集信息并利用复杂的算法可以创造出更多的商业价值。其实这方面的例子很多，例如从亚马逊买书的推荐系统：

amazon recommented

JavaEye论坛的相关文章推荐：

IBM Scissorhands是一个演示驱动的Web Data Extraction工具：

在一个site做Demoà记录填写表单以及Data Extracion的Sequence—>生成site相关的和site不相关的modelàExtract Data from Demo site à学习更多的关于提取这个领域的知识àApply这些知识到新的Site来Extract Data。

元搜索引擎:meta-search

Meta-Query:http://metaquerier.cs.uiuc.edu.

这些例子我们可以看到机器学习和统计方法在各个领域都有很大的作用，特别是在解析由全世界的人们创造的巨大数量的信息上。

Collective Intelligence:

很早以前就使用Collective Intelligence，但随着新的通信技术的发展，他变得越来越流行和重要了。技术人员使用它来指代组合一群人的行为、喜好和意见来创造出新颖的观点。在商业市场中，许多参与者根据自己的信念来预测将来的价格要比一个专家单独预测的要准，因为市场是组合了成千上万人的知识、经验和洞察力的一个投影，而不是依赖于某一个人的观点的。可以从Web中获得成千上万的人的信息为Collective Intelligence提供了更广阔的空间：人们在使用互联网购物、研究、娱乐、创建自己的站点，这些行为都可以被得到并用来得到我们需要的信息，而不必通过去提问题而打扰用户。

Wikipedia：创建完全有用户来共享的，任何人都可以创建和编辑任何一个页面，只有少数几个Admin用户来做监督职权的滥用，他又大量的用户来创建并比任何一个组织创建要大的多，Wikipedia软件并不需要什么特别智能的算法，他只是跟踪变化并显示最新的内容。

Google: Google是第一个使用有多少个链接指向一个网页来对搜索结果进行排序。它和Wikipedia不同，Wikipedia是主动要请用户去为他做贡献，而Google是提取Web创建者的页面内容的重要信息来给网页打分。这本书主要讲后一种

机器学习：机器学习是人工智能的一个分支，它是关于让机器具有学习能力的一些算法。许多情况这种算法给一些数据和从这些数据属性的推出的信息对将来出现的新的数据做出预测。之所以可以这么做是因为大多数的非随机的数据包含一些模式，这些模式可以让机器去做泛化。

机器学习的相关概念扫盲：

监督式学习：训练数据中包含输入的向量集合并且有相应的目标值（labeled样例）

例如分类（Classification）、关联规则、回归(Regression)

非监督式学习：训练数据中不包含labeled样例

例如聚类(Cluster)、Density estimation、Visualization.

半监督式学习：组合了labled和unlabeled的Example去生成一个函数或分类

泛化（Generalization）：通过训练数据训练之后能够识别新的数据。

特征提取(Feature Extraction): 为了降维去除不想关的特征，在数据预处理阶段把数据转化成容易处理的。

分类（Classification）：Assign each input vector to one of a finite number of discrete categories，

if the desired output consists of one or more continuous variables, then the task is called Regression

Density estimation: To determine the distribution of data within the input space

Visualization: to projection the data from a high-dimensional space down to two or three dimensions.

机器学习的局限性：

机器学习在大量的模式面前的泛化能力是不同的，如果一个模式不同于以前所看到的，那么这个算法很容易被误解。由于当前的数据量不够，不能涵盖各种将来的情况，所以机器学习的方法很容易出现过度泛化，从而出现不准确性。

4
顶
0
踩

分享到：

Programming Collective Intelligence读书 ... | 《Programming Collective Intelligence》 ...

2008-12-21 13:42

浏览 2863

评论(0)

分类:非技术

查看更多

评论

发表评论

 您还没有登录,请您登录后再发表评论

相关推荐

集体智慧编程/Programming Collective Intelligence

集体智慧编程/Programming Collective Intelligence 中英文版

Programming Collective Intelligence: Building Smart Web 2.0 Applications

Programming Collective Intelligence: Building Smart Web 2.0 Applications 英文epub版本

《集体智慧编程》(Programming Collective Intelligence)官方源代码下载

《集体智慧编程》(Programming Collective Intelligence)官方源代码，非手敲。

programming collective intelligence

《programming collective intelligence》是一本使用Python语言学习机器学习的教材。全书以英文原版呈现，难度适中，非常适合自学的读者。这本书被一些业界专家广泛推荐，因为它不仅对于初学者来说容易理解，而且还...

Programming Collective Intelligence

《编程集体智能》(Programming Collective Intelligence)是一本旨在帮助读者掌握如何利用Python语言进行机器学习的技术书籍。本书深入浅出地介绍了各种复杂的机器学习算法，并通过实际案例将这些算法的应用变得简单...

Programming Collective Intelligence 集体智慧编程 English Edition

集体智慧编程 English edition

Programming Collective Intelligence -- 2008 -- code.7z

Segaran -- Programming Collective Intelligence -- 2008 -- code.7z

Programming Collective Intelligence（集体智慧编程英文版）

《Programming Collective Intelligence》是一本深度探讨如何利用编程技术来挖掘和分析数据，从而实现集体智慧的书籍。这本书主要面向对Python编程有一定基础，并希望通过编程手段理解并应用大数据、机器学习和人工...

Programming-Collective-Intelligence-master.zip

集体智慧编程的全部代码，本人自行全部学完并且基本上都实操运行过，可靠。现在分享给大家，象征性的收一个积分，希望大家学习愉快。

集体编程的智慧Programming Collective Intelligence

中文版电子书 + 英文版电子书 + 源代码本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从...

英文原版-Collective Intelligence in Action 1st Edition

A new category of powerful programming techniques lets you discover the patterns, inter-relationships, and individual profiles-the collective intelligence–locked in the data people leave behind as ...

Collective Intelligence in Action (Manning 2008).pdf

Collective Intelligence in Action (Manning 2008).pdf

Emergence of collective intelligence in online communities

文章提到的群体智能（Collective Intelligence，简称CI）指的是通过集体的决策制定、创新和协作，人们能够在前所未有的方式上提升自己的集体能力。研究主要对象是那些采用创新性的社交科技来鼓励群体决策制定、创新...

推荐系统note
2013-06-24 18:36 0

推荐系统第一章 Introduction 1.1基本概念 1 ...

[zz]推荐系统-从入门到精通
2013-04-20 14:38 2510

为了方便大家从理论到实践，从入门到精通，循序渐进系统地理解和掌 ...

[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
2012-11-30 13:13 12282

牛人主页（主页有很多论文代码） Serge ...

计算广告学
2012-08-12 13:53 0

计算广告学一： 1、核� ...

期望最大（EM）算法推导
2012-08-05 19:54 8457

X是一个随机向量，我们希望找到使得取得最大值，这就是关于的最 ...

Large-Scale Support Vector Machines: Algorithms and Theory
2012-04-12 00:32 0

支持向量机是一种流行� ...

[zz]数据挖掘邻域的5篇经典文章
2011-05-12 13:50 1812

转载自 http://www.dataminingblog.c ...

大规模数据挖掘-第三章学习笔记二
2011-05-02 21:12 3503

3.4 文档局部性敏感哈希 ...

大规模数据挖掘-第三章学习笔记一
2011-05-01 00:06 10899

第三章查找相似的Items 数据挖掘的一个基本问题是检测相似 ...

HtmlUnit解析html会丢掉不可见的Element
2010-01-15 21:06 2923

最近使用htmlunit来作为后端抽取数据，htmlunit的 ...

信息抽取思考笔记
2009-12-07 21:48 1738

信息抽取的两种方式：基于内嵌浏览器的navigation的抽取 ...

基于模式发现的信息抽取(1)
2009-12-03 23:37 2699

IEPAD:基于模式发现的� ...

分享一本文本挖掘的书
2009-09-21 23:28 1716

好不容易从国外找到的，有需要的可以下来看看。 The inf ...

《Web Data Mining Exploring Hyperlinks, Contents, and Usage Data》列入读书单中
2009-09-10 18:00 2064

liubing同学写的，web content mining的 ...

机器学习的开放源代码项目mahout
2009-04-16 23:05 5457

最近看了刚发布的开放源代码项目mahout,实现了很多机器学习 ...

网页分析/挖掘中常用数据结构和算法
2008-12-30 11:28 2770

网页在render的时候都生成DOM树的，所以树形的数据结构用 ...

一个很好的Machine Learning的开源工具网站
2008-12-30 10:41 2239

mloss.org http://www.mloss.org/ ...

基于firefox浏览器的Deep Web Navigation总结
2008-12-29 12:24 2226

先占个位置，这两天准备回家，办手续，定房子什么的，比较忙，先提 ...

一份夭折了的Information Extraction的总体设计
2008-12-26 17:46 1313

由于项目提前closed,我的一个Information Ex ...

Programming Collective Intelligence读书笔记三推荐系统（续）
2008-12-26 17:14 1927

根据前面的两个相似度� ...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Programming Collective Intelligence读书笔记一

评论

发表评论

相关推荐

推荐系统note

[zz]推荐系统-从入门到精通

[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接

计算广告学

期望最大（EM）算法推导

Large-Scale Support Vector Machines: Algorithms and Theory

[zz]数据挖掘邻域的5篇经典文章

大规模数据挖掘-第三章 学习笔记二

大规模数据挖掘-第三章 学习笔记一

HtmlUnit解析html会丢掉不可见的Element

信息抽取思考笔记

基于模式发现的信息抽取(1)

分享一本文本挖掘的书

《Web Data Mining Exploring Hyperlinks, Contents, and Usage Data》列入读书单中

机器学习的开放源代码项目mahout

网页分析/挖掘中常用数据结构和算法

一个很好的Machine Learning的开源工具网站

基于firefox浏览器的Deep Web Navigation总结

一份夭折了的Information Extraction的总体设计

Programming Collective Intelligence读书笔记三 推荐系统（续）

最近访客更多访客>>

大规模数据挖掘-第三章学习笔记二

大规模数据挖掘-第三章学习笔记一

Programming Collective Intelligence读书笔记三推荐系统（续）