`

微软+Powerset就能击败Google 来源:红尘 时间:2008-07-30 15:23

阅读更多
 微软购买火热的创业公司powerset有何计划?这个3岁的公司由巴尼 佩尔博士创办,并于最近启动了针对维基百科的语义搜索体验。

  人们怀疑微软买下这个公司不是仅为加强其搜索业务的。很可能是复制维基百科解决方案,把powerset插入浏览器中,在这篇博客里我们看一下这起并购背后的故事。

  开始的大多数评论认为powerset产品发布并没有给人留下深刻印象。评论家欣赏有创新性的语义用户界面也认识到其潜力,但认为它不会在很大程度上改善维基百科。所以从冷淡的评论来看,被微软收购出于意料。10亿的价格标签大约是将5倍于A系列的12亿再加8亿的投资投给公司。微软执行层一定坚信powerset是与google战斗的武器。

  今天的powerset是什么

  给定一组非结构化的信息,powerset应用自然语言加工技术从正本中提取概念和关键语义概念,然后建立语义索引(和google的类似)及实体之间的关系概念图。此图通常是用RDF三倍数表示的。

  powerset创新之一是语义表面化于用户界面。载入语境插件帮助用户浏览非结构化信息。

  许多人认为powerset是一个普通的语义搜索引擎,但它的首款产品就限于wikipedia,将该技术大范围应用到整个web世界,价值就很高了。

  为什么powerset很强大

  几年前语义技术出现的时候,人们开始谈论语义网站或是语义搜索怎么样成为google的杀手。因为语义搜索可以传递更多相关的结果,因为它“知道”内容。

  业内认为不是那么回事,语义搜索与google使用的统计方法相比没有特别大的优势。在博客 Semantic Search - Myth and Reality中有相关讨论。

  powerset最厉害的是什么呢?正是它不尝试将网页作为一个整体来搜索。现在,这一解决方法在wikipedia成功了,但基础构架是通用的,所以也可以应用到其他网站以增强效果。成熟的语境概要可以用来搜索任何内容。

  不处理整个网页,这一方法在针对具体的网站时可能会被首先考虑。

  对google的正面消息是什么?

  今天的powerset不是google杀手。从这点上说,只有巨大的动力才会有机会。

  在搜索市场,google占有率很大——潜力更大,如果雅虎的交易完成。人们对google很有信心:简单,是,不完美,但已足够好了,搜索结果要好于live搜索。

  如果微软买了powerset,并把它和live 搜索整合,可能会是另一个在底线上的没什么影响的收购。事实上,在live搜索blog上的宣布也是如此。排在首位的收购原因是获取人才;第二个是相信NLP 和语义算法能填补当今搜索的漏洞。

  powerset带来的仅仅是有意思的技术;没有带来动力,那微软是怎么想的?可能会有更微妙的发挥,因为已经有杠杆作用的事实:powerset在像wikipedia这样的知识网站运行的不错。

  可能微软打算将powerset应用在它自己的网站上,将powerset整合在ie浏览器里。

  设想浏览wikipedia ,每个页面都有语义,现在通过网页周围的主要信息源来提高这一体验。

  提供语境,语义体验使得微软能让人们停留的时间更长些,除去他们花费在google搜索上的时间。

  这是很重要的一点,因为google没能在搜索上挣钱,它是靠广告盈利的。

  在广告业微软能打过google吗?

  微软寻求解决的真正问题是广告。直到现在,网站已明确了广告的两个基础-门户和搜索。

  门户在每个页面显示广告;刷新内容的人们越多,显示的广告也越多,网站盈利也就越多。搜索模式作为另一个选择出现,现在更成功,成为获取广告收入的一条路。

  利用powerset和其他语义技术,又出现另一种模式:覆盖在现有的内容上的语境信息探索。

  如果微软能够把人们从google的主页面引开,游戏就会发生重大的改变。浏览器是微软最厉害的工具之一——其默认页是live 搜索。

  微软想赢取广告商,就要用浏览器做更多的工作。把powerset的语义搜索器整合到浏览器并设为默认将会改变游戏。这不是简单的。一个有官僚作风和执行问题的大公司是不可能迅速、完美的将语义融合到浏览器中的。

  结论

  兼并powerset是微软引人关注的行为。这家炙手可热的语义创业公司被很多公司盯上了。

  计划是怎样的?微软买下这家公司不会仅仅为加强live 搜索。很可能的计划是复制wikipedia的解决方法,然后把powerset合并在ie浏览器上。

  这是个很大胆的游戏,要求严格执行——并不是后来微软所表现出来的那样。

分享到:
评论

相关推荐

    MEKA:Weka的多标签扩展-开源

    1. **多标签分类器**:MEKA提供了多种多标签分类算法,如基于转换的方法(如Label Powerset、Binary Relevance)、基于封装的方法(如Ranking Support Vector Machines)和基于分解的方法(如Classifier chains)。...

    10 PowerSet.rar

    《严蔚敏数据结构与算法:PowerSet的实现》 数据结构是计算机科学中的核心课程之一,它探讨了如何高效地存储和处理数据。在这个领域,严蔚敏教授的著作《数据结构》是一本广为流传的经典教材。本书涵盖了各种基本的...

    期末作业素材:多标记学习 -多标记分类-多标记预测专题multi-label learning

    通过深入研究这些素材,学生不仅可以了解多标记学习的基本原理,还能通过编程实现和实验来增强理解和技能,这对于在人工智能领域的进一步学习和职业发展将大有裨益。在K12阶段引入这样的高级概念,有助于激发学生对...

    PowerSET:PowerSET(Powershell 社会工程工具包)

    介绍:PowerSET! PowerSET(Powershell 社会工程工具包)~用于许多欺骗性的东西...... Windows Powershell:1:是众所周知的 Microsoft .Net Framework 的极其强大的前端 2:使用对象管道使数据处理快速而简单 3:...

    10 PowerSet.zip

    在这个压缩包中,我们可以找到一个名为“10 PowerSet”的子文件,这通常代表该文件包含了关于“幂集”(Power Set)算法的实现。幂集是指一个集合的所有子集构成的集合,包括空集和自身。在计算机科学中,理解和实现...

    Python-基于ScikitLearn的多标签学习包

    **Python-基于ScikitLearn的多标签学习包** 在机器学习领域,特别是在处理分类问题时,我们经常会遇到多标签分类...无论是初学者还是经验丰富的数据科学家,这个库都能提供必要的支持,帮助实现高效的多标签学习模型。

    Power-set.zip_power set_power set 集合_power set幂集_powerset_空集的pow

    在数学的集合论中,幂集(Power Set)是一个重要的概念,它与集合的子集关系密切相关。本文将深入探讨幂集的定义、性质以及它在计算机科学中的应用。 首先,我们来理解“幂集”的基本含义。一个集合的所有子集...

    HBase应用与发展之ApacheHBase的现状和发展.pdf

    HBase是一种分布式的、版本化的、非关系型的列存储数据库,其设计灵感来源于Google的BigTable论文。它能够支持海量数据的存储,并提供了高可靠性和高性能的数据服务。HBase的核心优势在于其能够支持随机读取和写入...

    SDL(Specification and Description Language)

    - **SDL生成器**:用于创建复杂数据结构的工具,如数组(Array)、字符串(String)、幂集(Powerset)。 - **新类型声明**(Newtype):允许用户自定义新的数据类型。 - **同义词(Synonym)**:用于定义常量,类似...

    nfa-to-dfa-master_atmjavaprogram_

    3. **并行接受**:如果一个输入串能使得NFA的一个状态集被接受,那么该输入串就被NFA接受。 **DFA(确定有限状态自动机)** 与NFA相比,DFA有以下特点: 1. **唯一起始状态**:DFA只有一个初始状态。 2. **无ε转移...

    PowerSet.exe

    适合笔记本电脑在不同场合下,改变电源节能模式,操作简易,实用性强!

    多标签(multi-label)数据问题常用的分类器或者分类策略

    多标签数据分类与传统的单标签分类最大的区别在于,每个实例可以拥有一个或多个标签,这就使得问题更加复杂。本文将详细介绍多标签数据分类中常用的分类器或分类策略,并探讨这些方法的特点及其应用场景。 #### 一...

    C6拓康空气质量检测仪-协议文档-2018-08-131

    - `powerSet`命令用于设置设备开关,可以控制设备的开启或关闭。 - `querySet`命令用于查询设备的设置状态,获取设备当前的工作模式等信息。 5. **校验码**: 帧尾的校验码用于确保数据传输的准确性,通常通过对...

    多标记(multi-label)学习和Mulan

    在Mulan中,包含了多种经典的多标记学习算法,例如基于阈值的方法(Binary Relevance, BR)、基于链式规则的方法(Label Powerset, LP)、基于排序的方法(RankSVM)以及基于分解的方法(Crammer-Singer, CS)。...

    leetcode2sumc-Complete-coding-notes:一组来自各种竞争平台的所有代码,如CodeChef、Leet代码、Ha

    Powerset 和 Find tha nums 一个月的挑战:') 解决的难度级别: :green_circle: 容易:70 :light_bulb: 中号:60 :red_circle: 硬:2 :black_circle: 非常难:0 :glowing_star: 好评论 总计- 132 第 0 天 为我

    大数据技术之HBase.docx

    - **HBase起源**:HBase源自Google的Bigtable论文,最初由Powerset公司基于此开发,后成为Apache的顶级项目。HBase几乎实现了Bigtable的所有功能,并且独立于Hadoop发展。 - **HBase定义**:HBase是一种面向列的...

    multi-lable multi-SVM classification

    1. 数据预处理:首先,需要将原始数据转换成SVM可以处理的形式,包括特征提取、标准化或归一化,以及构建多标签的表示方式,如Binarized、Label Powerset、One-vs-All等。 2. 模型训练:选择合适的SVM模型参数(如C...

    reConverter:自动机理论 - 任务 2

    - 编写算法以从 NFA 构建 DFA,这可能涉及到 powerset construction(幂集构造法)或其他方法。 - 实现自动机的运行方法,用于检查字符串是否被该自动机接受。 - 如果任务还包括其他转换,如 PDA 到 DFA 或者图灵机...

    NFA转化DFA [编译原理/形式语言与自动机]

    编译器在解析源代码时,首先需要通过词法分析器识别出各种语言元素,这个过程就可以用DFA或NFA来实现。通过理解NFA和DFA的转换,我们可以更好地设计和实现高效的词法分析器,从而提高编译器的整体性能。 总的来说,...

Global site tag (gtag.js) - Google Analytics