`
orange.lpai
  • 浏览: 92967 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
文本特征提取方法研究 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识 ...
现有上线的关键词提取算法 1. 语言特征+位置特征,如标题中的名词 2. 对正文+标题的文本构造PAT,然后从中计算字符串的左右熵,互信息来抽取关键词 参考论文《PAT-Tree-Based Keyword Extraction for Chinese Information Retrival》 《Updateable PA ...
互联网时代的社会语言学:基于SNS的文本数据挖掘 本文转载于http://www.matrix67.com/blog/archives/5044 几个概念 凝固度 我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,“的电影”的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。 自由度 我们不妨就把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。 java实现,100M文本效果还可以,但大于100M以后内 ...
在研究百度中文分词的时候,最好的方法是借助中文分词工具,在这里搜寻了一些工具,希望对大家有所帮助。 接下来,在此基础上发现好的分词工具再进行完善! 中文分词工具: 1) MSRSeg from Microsoft Research http://research.microsoft.c ...
http://www.cnblogs.com/mengyan/archive/2012/10/09/2716194.html
Libsvm是台湾大学林智仁教授等研究人员开发的一个用于支持向量机分类,回归分析及分布估计的c/c++开源库。另外,它也可以用于解决多类分类问题。 Weka是一个开源的机器学习软件,集成了数据预处置、机器学习算法、可视化 ...
这篇 How Facebook Ships Code 提供了大量的细节信息,之前已经有朋友提供了一个翻译版本,阅读之后发现有些许错误,并且原文有更新,所以基于前面的翻译版本我重新翻译了一个(完整的)版本。一并谢过。希望这个版本对大家也有所参考。 我对 Facebook 的运作方式着迷。这是个非常独特的环境,很难被复制(这个方式并不适合所有的公司,即使有些公司尝试过这么做)。下面这些笔记来自我和Facebook的许多朋友的交谈,关于他们开发、运维与软件发布等方面。 好像很多人都对 Facebook 感兴趣... 这家公司的工程师驱动文化(Developer-driven culture)已经被公众 ...
demonstrate 的 blog daily blog Computational Advertising 笔记(一)[/color] [color=gray]这部分内容来自 Stanford 大学的这门课程。 计算广告学(computational advertising)的基本问题是为给定的用户在给定的环境下找到最合适的广告,这么简单的一 ...
   相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长 ...
  拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的.   我们分析拼写检查系统关注以下几个问题:   (1)系统如何判断用户的输入是有可能发生错误的查询呢?   (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?      那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话 ...
    之前在点石茶话会上也有重点讨论过百度分词算法,那时很多SEOer都认为百度在测试分词技术中,有些关键词带公司字眼的关键词,在搜索结果内容时基本上跟关键词不乎核,下面是中科院软件所张俊林一篇百度分词算法的三步曲,希望能帮SEOer解答一些关于百算分词算法的问题,内容可能长点,各位慢慢消化! 查询处理以及分词技术 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量,作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等; 作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象,搜索引擎经济的崛起 ...
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Do ...
搜索建议 Lingpipe提供了一种可选择的拼写纠错方式,能对用户未输入完整的查询进行提示最相近的查询建议。 图片中显示了google搜索框中的选择性纠错模型对查询进行补充完整。 例如,首行搜索建议词是”amzon”,尽管用户输入查询”anaz”,这并不惊奇,因为那些以”anaz”为前缀的建议词的搜索结果比较小。 不仅有词的搜索建议,还有短语纠错建议。比如一些搜索词像”anazao salon” 搜索建议和拼写纠错之间的一个重要不同点为:搜索建议是在确定的搜索短语集中选择的。 I want to find anaz,是没有建议的短语的 找出有数量的短语 例如我们的demo,我们假设用户 ...
基本模型 基本技术工作如下:搜索引擎提供可使用的稳定被用来索引和被训练成为一种语言模型。这种语言模型存储的是短语和短语统计的特征信息。当提交一个查询时, 类src/QuerySpellCheck.java 在模型中寻找与之匹配的字符编辑操作,诸如字符截取,插入,替换,转换和删除等等,这样使查询更好的适用于语言模型。如果 你提交一个查询"Gretski",模型中的数据来源为rec.sport.hockey,这个模型将会把'Gretzky' 推荐出来。 领域相关性 基于字典的拼写校正方案的最大优势是校正结果依赖于搜索索引数据。因此查询词"trt"在法律领域别 ...
计算机笔试和面试最常考察的就是字符串的各种操作。字符串处理是我们程序员日常工作最常遇到的问题,能够体现程序员的基本功。下面我就最近一个月以来的各种笔试和面试遇到的有关字符串处理的题目和大家分享一下:   1、google笔试:编码实现求给定字符串(全为小写英文字母)的最小后继,如“abc”的最小后继为 “abd”,“dhz”的最小后继为“dj”。   思路:题目比较简单,对最后一个字符+1,如果大于’z’则对前一个字符+1,如果又是大于 ’z’,重复之前步骤。所以写代码时,我们只要对字符串循环从后往前对每一个字符进行+1,直到出现+1后不超过’z’为止。如果退出循环时第一个字符大于于’z’则提示 ...
Global site tag (gtag.js) - Google Analytics