`
davidxiaozhi
  • 浏览: 242117 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理--从规则到统计

阅读更多

      目前各大互联网公司都如火如荼的在研发者自己的推荐业务,因此机械学习、人工智能,数据统计分析建模变成了一个当下很热门的研究方向,那么计算机如何智能的处理自然语言呢,比如最近流行的小黄鸡应用,你的一问一答,他都会憨态可掬的作出很黄很暴力的回答。那么他是怎么处理和分析语言的呢,其实任何一种语言都是一种编码方式,人说话其实就是把想表达的意思进行编码, 编码形式 可以使声音 也可以是电流也可以是手语,接受者在对应相应的解码便得到 信息 ,这其实就是语言的数学本质。 其实在早期针对计算机如何对语言处理,我们的先人也是这么认为,就是计算机如果想处理自然语言就必须想人脑一样去处理事情,看过西游记吧,孙悟空经常说的一句就是,妖精那里逃,这里的妖精其实就是像人一样,但不是人,但是又让你看不出来他不是人。怎么感觉像一句经典台词,you know i don't know you know i don't know ,其实这就是人工智能,伟大的先贤们苦苦思索如果让计算机的处理器想人脑一样去做事情,结果各种失败,于是一些自然语言处理的先驱们变开始重新思考这个问题,就像Cpu一样 处理器的处理速度由零点几一次又一次升级到三点几一样,突然发现,当前的技术已经无法再提高cpu的频率来提高运算速度了(或者提高需要很大的成本),怎么办,于是双核出现了,四核出现了,多核出现了,工程师很聪明,知道换一种方法去解决问题,如果有一天拥有一定的技术(或者成本降低了) cpu的频率会进一步提高的,并接应该是高频加多核。使用统计模型去进行自然语言的处理其实也是这样,当使用计算机模拟人脑出现瓶颈,当前技术无法成功的模拟人脑去做自然语言的处理,但是事情又不得不做时,基于统计模型的方法便提了出来,经过验证发现能成功解决很多问题,随着模型越来越完善,出错率也越来越低。这便成为一种对自然语言处理的主流方法。就像cpu采用多核一样,如果有一天我们能使用足够计算机模拟人的神经网络 再结合 统计模型的建模,我认为那才是真正的人工智能,据说google模拟神经网络系统成功得是系统自己识别了猫这个概念。这真是让人期待啊!

     其实基于统计模型分析处理自然语言也经历了先是通过语法分析,发现太困难了,语法总是变得,而且有的还具有二义性,不太可行,后来便提出了基于统计规则处理,也就是如果计算机问你吃了没,你会回答 1.吃了 2,都饿死了你说呢?3,都消化的差不多了,4,各种方言版,计算机如果真想分析你到底吃了没,如果你的回答根本就不合乎语法,比如流行语,根本不代表吃了,但是当前就代表吃了的语义,基于语法分析根本无法处理这种 "元芳你怎么看?" 或者很困难,但是基于统计规则就简单多了,例如如果大家针对元芳你怎么看提问,计算机会根据分析词库,针对“元芳你怎么” 看回答各个词出现的 词频 分析应该出什么结果,计算机可能会给出“老衲没意见”,他不明白“老衲没意见” 代表什么意义,但是大家都这么说,这个回答针对元芳你怎么看出现的次数很多而已。好了简单记录这么多。

 

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911

1
0
分享到:
评论
3 楼 comsci 2013-02-01  

  最有可能大规模应用的神经网络技术应该是这样的,我猜想的

  在由若干个比较普通的多核心PC机组成的集群中,对每一个CPU核心进行虚拟化,一个多核心CPU可以模拟2N+1个或者更多的神经元,那么这个集群可以模拟一个小规模的神经计算网络。。。成本可以控制,那么一般的公司应该负担得起。。。。

  当然,这需要在软件上面有相应的技术实现。。。。。。

  我猜想,INTEL他们在CPU上面实现超线程技术,有可能就是希望走这一步。。一个物理核心模拟出多个虚拟核心,一个虚拟核心就是一个或者多个神经元
2 楼 davidxiaozhi 2013-02-01  
嗯,确实这样,神经网络的实现目前也只有像google这样的大公司有这个实力,如果能够降低神经网络实现的成本,并且能够普及,估计自然语言处理这个领域就要发起一次新的革命了,期待那一天.
1 楼 comsci 2013-01-30  

如果用硬件来实现神经网络,成本可能太高了,只有几家大公司有这个能力
如果神经网络能够用较低成本的普通PC集群来实现,然后用软件来构造,那么推广的前景还不错。。。。

相关推荐

    自然语言处理-汉语分词技术概述

    汉语分词作为自然语言处理的一项基础任务,其准确性直接影响到后续处理流程的效果。通过对基于词表的方法和字序列标记方法的学习与理解,我们可以更好地应对汉语分词过程中的各种挑战,尤其是在处理歧义词和未登录词...

    自然语言处理-中文分词程序

    自然语言处理是计算机科学领域的一个重要分支,它专注于让计算机理解和生成人类的自然语言,如中文和英文。在这个领域中,中文分词是一项基础且关键的任务。中文分词是指将连续的汉字序列切分成具有独立语义的词汇...

    项目八 认识自然语言处理-任务1掌握自然语言处理的基本概念.pptx

    ### 自然语言处理基本概念详解 #### 一、引言 自然语言处理(Natural Language Processing,简称NLP)是计算机科学、人工智能与语言学交叉融合的一门学科,它旨在研究和开发能让计算机与人类自然语言进行有效交互...

    统计自然语言处理

    《统计自然语言处理》是一本深入探讨自然语言处理(NLP)领域的经典著作,它将统计方法与计算语言学紧密结合,为理解和应用自然语言提供了一种数据驱动的视角。NLP是计算机科学的一个分支,专注于如何使计算机能够...

    自然语言处理-语言模型.pptx

    自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及如何让计算机理解、解析、生成和生成人类使用的自然语言。在这个领域,语言模型扮演着至关重要的角色,因为它们能够帮助...

    自然语言处理-大模型-LLMs-面试题

    - 从基于规则的方法到统计方法再到现在的深度学习方法,NLP经历了多个发展阶段。其中,预训练模型如BERT、GPT等推动了NLP的发展进入了一个新的阶段。 #### 二、大模型(LLMs)概念 1. **什么是大模型(LLMs)?** - ...

    自然语言处理-分词

    自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及如何让计算机理解、解析、生成和生成人类的自然语言。在NLP中,分词(Word Segmentation)是基础且关键的一环,它是将连续...

    统计自然语言处理基础PDF(中英文-带书签)

    《统计自然语言处理基础》是一本深入浅出的教材,主要涵盖了自然语言处理(NLP)领域的核心概念和方法,特别强调了统计学在其中的应用。由宗成庆编著的这本书,分为中英文两个版本,方便不同语言背景的学习者理解和...

    统计自然语言处理 宗成庆(第二版)

    《统计自然语言处理》是宗成庆教授撰写的一本深入探讨自然语言处理技术的专业书籍,尤其强调了统计方法在这一领域的应用。这本书的第二版针对第一版进行了更新和完善,提供了高清的文字版PDF,便于读者阅读和学习。...

    基于统计的自然语言处理基础

    通过本书的学习,读者将能够在统计自然语言处理领域内打下坚实的基础,并有能力参与到这一领域的前沿研究中去。随着技术的不断进步和社会需求的变化,统计自然语言处理的应用场景将会越来越广泛,其发展前景值得期待...

    《统计自然语言处理》 宗成庆第二版pdf +《统计自然语言处理基础》 苑春法译pdf

    这两本书,《统计自然语言处理》宗成庆第二版和《统计自然语言处理基础》苑春法译本,都是深入探讨这一领域的经典教材。 《统计自然语言处理》宗成庆第二版是针对NLP领域的深度学习和大数据背景下的更新之作。宗...

    人工智能自然语言处理发展报告.docx

    通过上述分析可以看出,自然语言处理是一门综合了计算机科学、语言学等多个领域的交叉学科,其发展历程和技术进步对于推动人工智能的整体发展起到了至关重要的作用。未来,随着技术的不断进步,NLP将在更多领域发挥...

    统计自然语言处理.pdf

    在宗成庆版的《统计自然语言处理》中,读者可以学习到如何使用这些统计模型进行词性标注、命名实体识别、机器翻译、情感分析、问答系统以及文本分类等任务。例如,词性标注是识别单词在句子中的语法角色,而命名实体...

    2018年文本分类,文本校对自然语言处理论文,附宗成庆统计自然语言处理

    这篇文档将深入探讨这两个主题以及相关的《统计自然语言处理》这一经典教材。 文本分类是NLP中的一个基础任务,其目标是将无结构的文本数据自动归类到预定义的类别中。例如,新闻文章可以被分类为体育、财经、娱乐...

    自然语言处理概述-哈工大

    自然语言处理的发展历程可以追溯到20世纪50年代,早期的规则基础方法逐渐被统计学习模型取代,如隐马尔可夫模型(HMM)和条件随机场(CRF)。随着深度学习的兴起,神经网络模型如循环神经网络(RNN)、长短时记忆...

    统计自然语言处理(完整版)

    《统计自然语言处理》是一门深入探讨如何利用统计方法解决自然语言处理问题的学科。它在人工智能和计算语言学领域占据着核心地位,是理解和构建智能系统与人类语言交互的关键。这一完整版的讲义涵盖了从基础理论到...

Global site tag (gtag.js) - Google Analytics