- 浏览: 37093 次
- 性别:
- 来自: 常州
最新评论
-
夜曲6763:
...
eclipse 手动安装Svn插件 -
我叫_不_开心:
请问楼主,ir这个变量是什么啊?
[ solr - MoreLikeThis ] - MoreLikeThis的原理分析 -
matay:
请问,在找候选词字符串时JaroWinklerDistance ...
[ 搜索引擎 ] - spellChecker原理分析 -
huangfoxAgain:
whiletrue 写道这是篇好文章唉,居然无人评论,谢谢分享 ...
[ 搜索引擎 ] - spellChecker原理分析 -
whiletrue:
这是篇好文章唉,居然无人评论,谢谢分享。
[ 搜索引擎 ] - spellChecker原理分析
文章列表
在信息时代,快速、准确的找到目标数据是非常重要的,信息检索因此在各个领域得到广泛的应用。
在互联网生活中,搜索引擎正如火如荼的生长,他已成为人们在互联网生活当中必不可或缺的一种工具。但是这个工具看似简单,其实包括很多高深的技术。我正有打算了解搜索引擎领域的相关内容,然而面对这座“巨大的冰山”必须先了解他的整体结构。在《信息检索系统导论》一书中,似乎为我们绘制一套了解“信息检索”的“攻略图”,我对其进行自我个性化调整后权当自己的学习路线。
信息检索系统——学习线路
1.信息检索模型
﹂布尔模型
﹂向量空间模型
﹂概率模型
﹂扩展布尔模型
...
spellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示:
我们首先借用lucene简单实现该功能。
本文内容如下(简单实现、原理简介、现有问题)
lucene中spellchecker ...
在solr中有两种方式实现MoreLikeThis:MoreLikeThisHandler和在SearchHandler中的MoreLikeThisComponent。
两种方式大同小异:
一是:将MoreLikeThis作为一个单独的Handler来处理,体现主体地位。
二是:将MoreLikeThis作为一个组件放到SearchHandler中,为Search加入了MLT的功能,是一种辅助功能。
这里我们借助方法一,来简单阐述MLT的实现步骤。
步骤1:
MLT是根据一篇文档(document)的相关字段进行“相似匹配”,例如:
http://localhost: ...
solr-searching过程分析(一)
——searching过程粗略梳理
下午看了一会solr的启动过程,往细的看相当繁琐。换个头绪先看看solr的searching过程。
1.拦截请求,解析请求并构建相应的handler。
发送检索请求,例如:http://localhost:8983/solr3.5/core2/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
首先他将被SolrDispatchFilter拦截。
简介:一个纯jdbc的dao模型,参考网上多篇相关技术文章,重点包括:1.事务处理;2.模板设计;3.异常处理;其中事务和异常方面一直也是争议比较大的地方,希望大家多指正,提出宝贵的意见。首先是dao的结构描述:
首先是一些基础类,包括:
dbutil: 数据库操作基础类(获取数据库连接、获取事务管理器等)
transactionTemplate: 事务处理模板类
transactionManager: 事务管理器
transactionCallback: 事务处理回调方法(返回结果)
transactionCallbackWithoutResult: 事务处理回调方法(不返回结果) ...
本文说明了在J2EE架构中各层的数据表示方法,包括:1、Web层的数据表示是FormBean;2、业务层的数据表示是VO;3、持久层的数据表示是PO。Form Bean不能被传递到业务层;PO在特定的情况下,例如Hibernate中,他可以取代VO出现在业务层,但是不管PO还是VO都必须限制在业务层内使用,最多到达Web层的Control,绝不能被扩散到View去。
在struts+hibernate这种结构中,是不应该把Hibernate产生的PO直接传递给JSP的,不管他是Iterator,还是List,这是一个设计错误。
我来谈谈在J2EE架构中各层的数据表示 ...
基于ipc分类号生成样本训练集指导文本分类
1.文本分类的简要过程
在实际分类中,首先将训练文本表示成某种形式的元素(词)的向量,通过特征提取,用权重表示特征,这样就可以对元素-权重表示的文档向量进行训练,获得向量模型。
分类时,待分类的文档表示成元素-权重文档向量,并于向量模型进行比较,最终判断其类别。
2.第一个问题:如何找到合理的文档训练集?
由于在专利检索方面有一定的经验,因此可以依据ipc分类号,提取一批规范的文档集,作为文档训练集。
3.ipc分类号介绍
国际专利分类系统的体系结构如下: 国际专利分类系统按照技术主题设立类目,把整个技术领域分为5 ...
本文先引用几句话:1.“确解用户之意,切返用户之需。”2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”4.“只是优秀还不够,最好的方式是将一件事 ...
(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展 ...
1.还原过程中提示“无获取独立访问权”ALTER DATABASE [dbName] SET OFFLINE WITH ROLLBACK IMMEDIATE断开连接ALTER DATABASE [dbName] SET ONLINE WITH ROLLBACK IMMEDIATE开启连接2.还原过程中提示“尚未备份数据日志尾部”这是因为在线还原的数据库在最后备份后又产生了新的日志,所以按照默认设置的备份选项,系统将提示备份日志尾部以免造成事务中断。解决方法如果需要备份尾部日志则进行备份。如果不需要,则可以在还原数据库的的选项卡中选择【覆盖现有数据库】复选框。3.无法收缩数据库文件、日志文件将该数 ...
如何成为一名优秀的交谈者,下文介绍几条永远不会过时的法则:
1. 避免不必要的细节
不要钻牛角尖。例如,某个时间发生的事情并不重要,就不要浪费时间把它弄清楚。
2. 在第一个问题没有弄明白之前,不要问另外一个问题
你问别人孩子怎么样,在她回答之前,不要跳跃话题,又问人家家人的健康。
3. 别人说话时,不要打断
尽量缩短自己说话的时间,给别人说话的机会,并且,不打断。
4. 不要反驳,尤其是话题不重要的时候
别人说话时,你插入某些不必要的细节。“这种反驳别人的人,经常用另一种方式重述同一件事。”
5. 不要一直一个人讲话
寻找话题,找出你 ...
今天看到一篇文章,讲的是职场人士的四大高压,内容如下
[code="java"]职场是一个让人成长的地方,同时也是摧毁人的地方。职场的种种心理压力,通常是人们身心衰老的重要原因。下面4种压力,是职场人士再熟 ...
1.下载svn插件:
http://subclipse.tigris.org/
Download and Install
下载最近版本。
2.下载后解压到任意目录(文件名称尽量使用英文),在其目录下新建文件夹eclipse,将featrues和plugins放到刚健的eclipse当中。(有资料提示:删除解压文件中的三个xml文件)
3.在eclipse IDE 根目录下新建links文件夹,在里面新建subclipse.link文件(文件名随意),在文件中添加刚配置好的插件目录(只要到插件的根目录即可)。
JSTL标签库介绍
在JSTL1.1中有以下这些标签库是被支持的:Core标签库、XML processing标签库、I18N formatting标签库、Database access标签库、Functions标签库。
标签库 URI 前缀
Core http://java.sun.com/jsp/jstl/core c
XML processing
http://java.sun.com/jsp/jstl/xml x
I18N formatting
http://java.sun.com/jsp/jstl/fmt fmt
Database access
...
JSP中的EL表达式详细介绍
一、JSP EL语言定义
E L(Expression Language) 目的:为了使JSP写起来更加简单。
表达式语言的灵感来自于 ECMAScript 和 XPath 表达式语言,它提供了在 JSP 中简化表达式的方法。它是一种简单的语言,基于可用的命名空间(PageContext 属性)、嵌套属性和对集合、操作符(算术型、关系型和逻辑型)的访问符、映射到 Java 类中静态方法的可扩展函数以及一组隐式对象。 EL 提供了在 JSP 脚本编制元素范围外使用运行时表达式的功能。脚本编制 ...