- 浏览: 21017 次
- 性别:
- 来自: 邢台
最新评论
文章列表
由于google 发表的原文章,专业性很强,很难翻译,我就写了这么多,请大家多多的努力的啊
2009 google flash优化方案
近月,有一项关于adobe falsh的公告,google和adboe联手研究一种新的算法来索引flash中的文本内容.最后的结果是 ...
URLS DISCOVERINGExternal resourcesIn this cool experiment we will try to figure out what is the current status of indexing xml content that is loaded into Adobe Flash.1、Can our favorite search engines (Google, Yahoo and MSN) index content that is loaded from XML?2、Will they follow links that are insi ...
URLs discoveringcan Google and Yahoo follow link in Adobe Flash?1、What will happen if we add link somewhere in text field?2、What will happen if we make whole text field as a link?3、Can Google and Yahoo follow and index pages that have on(press) ActionScript?4、What about function that have getURL Acti ...
Embedded text in Flash
How Google index text embedded in Adobe Flash?
In this experiment we will try to figure out can and how Google index content inside the Adobe Flash .swf file.
Experiment will provide us with answers to 6 questions?
Can Google recognize text in static text field?
Can Goo ...
hibenrate search 映射配置
@index
@Entity@Indexedpublic class Dvd {...}
@Entity@Indexed(name="Item")public class Dvd {...}
@Entity@Indexed(name="Item")public class Dvd {...}@Entity@Indexed(name="Item")public class Drink {...}
name在这里只不过是一个名子,用于在建立索引时的一个标记,
@Do ...
Luke是使用Lucene进行开发必不可少的一个工具.下载地址
它是一个Java开发的Lucene辅助工具.所以还得安装Java虚拟机.下载地址
下面对其功能做简单的介绍.
图1.
当打开Luke时就会出现图1.的样子.
最主要的就是要打开的索引路径"Path",紧跟着的选项是(已只读方式打开,和解锁)
以及打开方式及其选项等.
图2.
选择好索引路径后打开就是图2的样子了.
上半部分显示了索引的信息,包括路径,field个数,文档数,term的个数,是否优化,最后修改日期,Lucene的版本等.
下半部分的左边是所有的filed及其Ter ...
hibenrate search的查询与lucene的查询基本相同下边我说一下简的查询过程,前担是我们已经建立索引库了。
1、获取FullTextSession 因为我们的索引是是在数据库发生事件时建立的。我们就要获取相关的session来取得以后的吕作
2、像我们hql查询一样,我们也需要定义一个查询的条件
3、因为是全文检索,我们已经对文章进行了分词的处理. 所以以我们也要对输入的文本进行分词的处理,
4、执行查询,由于我们刚学习,这里要看一个查询语句。
下边是hibernate search 的lucene查询源码
ArticleDAO dao = new ArticleDAO ...
由于业务的复杂度和需要求各不想同,在建立索引时,hibernate search默人会解析一些基本的类型,但基提供了FieldBridge来进行处理,下边是一个例子
@Entity
@Indexed(index = "Announcement")
public class Announcement implements java.io.Serializable {
@Field(name = "announcementRecordDate", store = Store.YES)
@FieldBridge(impl = ...
分词器的作用:分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
到目前为止呢,分词器没有办法做到完全的符合人们的要求。
和我们有关的分词器有英文的和中文的
英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写
中文的分词器分为:
单子分词 例:中国人 分成中,国,人
二分法人词:例中国人:中国,国人
词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,现在用的是极易分词和庖丁分词。
停用词:不影响语意的词。
网上有很多说分词器效果的,我在这里就不进行多说了,给大写一个方法来来看一下效果
public static void main ...
@Indexed(index = "Announcement")//表示建立Announcement{的索引
public class Announcement{
// Fields
@DocumentId
private Long announcementId;
@Field(name = "announcementTitle", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = StandardAna ...
主要分成两个部分来进行处理的一个是索引,另一个是查找。
索引:
索引是一个多步操作,其目标是建立一个结构,这将使数据搜索更有效的:。搜索它解决了一个问题,我们的SQLbased曾与我们的引擎效率。 工具根据不同的全文检索,操作,有一部分是不被视为工作的一部分核心索引和有时不包括在内(参见图1.5):。让我们每一个看操作
■第一个操作需要的是收集信息例如,数据库中提取信息,从A网的网页抓取新的,或由一个系统作出反应引发的事件。 一旦检索到,每行,每一个HTML页面,或每个事件将被处理:。
■第二次行动中,搜寻的文字转换成表示原始数据文件。文件是在一个容器举行的文本表示的数据, 关 ...
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他 ...
Lucene:基于Java的全文检索引擎简介
ucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史
全文检索的实现:Luene全文索引和数据库索引的比较
中文切分词机制简介:基于词库和自动切分词算法的比较
具体的安装和使用简介:系统结构介绍和演示
Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展
从Lucene我们还可以学到什么
基于Java的全文索引/检索引擎——Lucene
ucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用 ...
由于java的框架太多,大多数人员会觉得很累,其实不是这样的。你只要学会几种之后,后边就是猜一种框加的思维,然后看书,这是我看书前的准备,先猜。
带着一种问题来学习,会有更好的记忆力。
下边是hibenrate 学的的基本条件
1、熟悉一种java的开发工具本人用的是myeclipse 7.5
2、对java的oop有一定的了解,其实写过几天oop语言就有体会了
3、能对hibernate 进行一定基本的操作。
4、lucene要有一定的了解,不过不要急我会把东西写的细一点,如果有时间我还会写lucene的简介。
本是一个java开发的初学人员,但对于hibernate search却用了半个月的时间来进行学习,学会了一些基本的应用,本人在以下几天的时间里,会把这些内容相应的向大家提供.
我们使用java的框加第一步是配置与测试框架架是否成功
hibernate search ,hibernate,lucene 之间的关系我在这里简单的说一下,大如果有什么不明白的可以到<a href="http://yanlong137.iteye.com/admin/blogs/837753">hibernate search</a>查看一下.
看字页search是搜索的意思 ...