这章主要讲了什么是Collective Intelligence,机器学习。开始举了一个DVD租赁公司基于以前客户租赁电影的历史记录来推荐电影,并悬赏1百万美金作为第一个能够提高推荐系统准确率10%的人,另一个是Google通过其他网页以一个网页的链接数来作为一个相关度的标准,这让Google的搜索结果比其他竞争对手好许多倍,并以此到2004年就占有搜索市场的85%。这两个例子都在说明从大量的不同的人群中搜集信息并利用复杂的算法可以创造出更多的商业价值。其实这方面的例子很多,例如从亚马逊买书的推荐系统:
JavaEye论坛的相关文章推荐:
IBM
Scissorhands是一个演示驱动的Web Data Extraction工具:
在一个site做Demoà记录填写表单以及Data Extracion的Sequence—>生成site相关的和site不相关的modelàExtract Data from Demo site à学习更多的关于提取这个领域的知识àApply这些知识到新的Site来Extract Data。
元搜索引擎:meta-search
Meta-Query:http://metaquerier.cs.uiuc.edu.
这些例子我们可以看到机器学习和统计方法在各个领域都有很大的作用,特别是在解析由全世界的人们创造的巨大数量的信息上。
Collective Intelligence:
很早以前就使用Collective
Intelligence,但随着新的通信技术的发展,他变得越来越流行和重要了。技术人员使用它来指代组合一群人的行为、喜好和意见来创造出新颖的观点。在商业市场中,许多参与者根据自己的信念来预测将来的价格要比一个专家单独预测的要准,因为市场是组合了成千上万人的知识、经验和洞察力的一个投影,而不是依赖于某一个人的观点的。可以从Web中获得成千上万的人的信息为Collective
Intelligence提供了更广阔的空间:人们在使用互联网购物、研究、娱乐、创建自己的站点,这些行为都可以被得到并用来得到我们需要的信息,而不必通过去提问题而打扰用户。
Wikipedia:创建完全有用户来共享的,任何人都可以创建和编辑任何一个页面,只有少数几个Admin用户来做监督职权的滥用,他又大量的用户来创建并比任何一个组织创建要大的多,Wikipedia软件并不需要什么特别智能的算法,他只是跟踪变化并显示最新的内容。
Google: Google是第一个使用有多少个链接指向一个网页来对搜索结果进行排序。它和Wikipedia不同,Wikipedia是主动要请用户去为他做贡献,而Google是提取Web创建者的页面内容的重要信息来给网页打分。这本书主要讲后一种
机器学习:机器学习是人工智能的一个分支,它是关于让机器具有学习能力的一些算法。许多情况这种算法给一些数据和从这些数据属性的推出的信息对将来出现的新的数据做出预测。之所以可以这么做是因为大多数的非随机的数据包含一些模式,这些模式可以让机器去做泛化。
机器学习的相关概念扫盲:
监督式学习:训练数据中包含输入的向量集合并且有相应的目标值(labeled样例)
例如分类(Classification)、关联规则、回归(Regression)
非监督式学习:训练数据中不包含labeled样例
例如聚类(Cluster)、Density estimation、Visualization.
半监督式学习:组合了labled和unlabeled的Example去生成一个函数或分类
泛化(Generalization):通过训练数据训练之后能够识别新的数据。
特征提取(Feature Extraction): 为了降维去除不想关的特征,在数据预处理阶段把数据转化成容易处理的。
分类(Classification):Assign each input vector to one of a finite number of discrete
categories,
if the desired output consists of one or
more continuous variables, then the task is called Regression
Density
estimation: To determine the distribution of data
within the input space
Visualization:
to projection the data from a high-dimensional
space down to two or three dimensions.
机器学习的局限性:
机器学习在大量的模式面前的泛化能力是不同的,如果一个模式不同于以前所看到的,那么这个算法很容易被误解。由于当前的数据量不够,不能涵盖各种将来的情况,所以机器学习的方法很容易出现过度泛化,从而出现不准确性。
分享到:
相关推荐
集体智慧编程(Programming Collective Intelligence)中文版 pdf-part1机器学习相关书籍
集体智慧编程/Programming Collective Intelligence 中英文版
Programming Collective Intelligence: Building Smart Web 2.0 Applications 英文epub版本
《集体智慧编程》(Programming Collective Intelligence)官方源代码,非手敲。
《programming collective intelligence》是一本使用Python语言学习机器学习的教材。全书以英文原版呈现,难度适中,非常适合自学的读者。这本书被一些业界专家广泛推荐,因为它不仅对于初学者来说容易理解,而且还...
《编程集体智能》(Programming Collective Intelligence)是一本旨在帮助读者掌握如何利用Python语言进行机器学习的技术书籍。本书深入浅出地介绍了各种复杂的机器学习算法,并通过实际案例将这些算法的应用变得简单...
集体智慧编程 English edition
集体智慧编程(Programming Collective Intelligence)中文版 pdf-part2机器学习 贝叶斯 决策树
Segaran -- Programming Collective Intelligence -- 2008 -- code.7z
《Programming Collective Intelligence》是一本深度探讨如何利用编程技术来挖掘和分析数据,从而实现集体智慧的书籍。这本书主要面向对Python编程有一定基础,并希望通过编程手段理解并应用大数据、机器学习和人工...
集体智慧编程的全部代码,本人自行全部学完并且基本上都实操运行过,可靠。现在分享给大家,象征性的收一个积分,希望大家学习愉快。
中文版电子书 + 英文版电子书 + 源代码 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从...
A new category of powerful programming techniques lets you discover the patterns, inter-relationships, and individual profiles-the collective intelligence–locked in the data people leave behind as ...
Collective Intelligence in Action (Manning 2008).pdf