关于solr schema.xml 和solrconfig.xml的解释

博客分类：

8-搜索引擎

一、字段配置（schema） schema.xml位于solr/conf/目录下，类似于数据表配置文件，定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。 name：就是这个FieldType的名称。 class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。 < schema na ...

2012-04-11 11:18
浏览 1245
评论(0)
分类:互联网

Lucene的索引文件格式(3)

博客分类：

8-搜索引擎

四、具体格式 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting List)。在Lucene中，这两部分是分文件存储的，词典是存储在tii，tis中的，倒排表又包括两部分，一部分是文档号及词频，保存在frq中，一部分是词的位置信息，保存在prx中。 Term Dictionary (tii, tis) –> Frequencies (.frq) –> Positions (.prx) 4.2.1. 词典(tis)及词典索引(tii)信息 ...

2012-02-17 11:25
浏览 879
评论(0)
分类:互联网

Lucene的总体架构

Lucene总的来说是：一个高效的，可扩展的，全文检索库。全部用Java实现，无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。在Lucene in ac ...

2012-02-17 11:20
浏览 687
评论(0)
分类:互联网

全文检索的基本原理

博客分类：

8-搜索引擎

一、总论根据http://lucene.apache.org/java/docs/index.html定义： Lucene是一个高效的，基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。

2012-02-17 11:19
浏览 686
评论(0)
分类:互联网

Lucene的索引文件格式(2)

博客分类：

8-搜索引擎

四、具体格式上面曾经交代过，Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息，也包括了从Term到Document映射的反向信息，还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。 4.1. 正向信息 Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf) 上面的层次结构不是十分的准确，因为segments.gen和segments_N保存的是段(segment)的元数据 ...

2012-02-17 11:17
浏览 812
评论(0)
分类:互联网

Lucene的索引文件格式(1)

博客分类：

8-搜索引擎

Lucene的索引里面存了些什么，如何存放的，也即Lucene的索引文件格式，是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候，我们会发现: Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成� ...

2012-02-17 11:08
浏览 785
评论(0)
分类:互联网

构建高性能Web站点

博客分类：

综合

1，页面静态化 2，memcache缓存 3，图片服务器分离 4，负责均衡 5，建立索引

2012-02-01 15:06
浏览 626
评论(0)
分类:互联网

关于hibernate的缓存使用

博客分类：

5-hibernate

1. 关于hibernate缓存的问题：1.1.1. 基本的缓存原理Hibernate缓存分为二级，第一级存放于session中称为一级缓存，默认带有且不能卸载。第二级是由sessionFactory控制的进程级缓存。是全局共享的缓存，凡是会调用 ...

2011-12-21 16:26
浏览 761
评论(0)
分类:企业架构

据说看完这21个故事的人，30岁前都成了亿万富翁

博客分类：

综合

据说看完这21个故事的人，30岁前都成了亿万富翁 1. 甲去买烟，烟29元，但他没火柴，跟店员说：“顺便送一盒火柴吧。”店员没给。乙去买烟，烟29元，他也没火柴，跟店员说：“便宜一毛吧。”最后，他用这一毛买一盒� ...

2011-12-20 17:15
浏览 742
评论(0)
分类:非技术

java反射一些笔记

博客分类：

1-java基础

JAVA反射机制是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法和属性；这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。我们刚刚接触反射的时候，可能就在想，这个在我们编写程序的时候，很少用到，到底有什么用呢？没错，对于普通编程根本就用不到反射，但是有时候我们在网络上传给我一个类，这个类我们事先是不知道的，这个需要动态的加载，这时候就需要了，在比如我们都知道spring struts hibernate ibatis这些框架，他们存在的基础就是：反射。 ...

2011-12-20 16:06
浏览 648
评论(0)
分类:编程语言

企业应用 VS 互联网

博客分类：

综合

互联网：关注响应速度，网络安全，更新频繁。通常是分布式存储数据，也经常利用文件系统。多使用海量服务器提高并发量，大量使用开源服务器软件和数据库。企业应用：关注数据安全，对数据精确性非常敏感。由于业务复杂造成繁琐的计算，很多地方会使用存储过程。多使用小型机甚至大机等集中处理，单表几千万甚至上亿条数据的随处可见。更信赖oracle/weblogic/websphere等商业软件。通常比较保守，不会采用最新的开源软件而是稳妥解决方案(我见到很多系统还跑在jdk1.3上) 从开发者角度来说：互联网对纯技术要求比较高。企业应用对业务要求比较高。但是很难说谁比谁NB，毕竟：复杂的业务模型同样需要强 ...

2011-12-20 11:15
浏览 1015
评论(0)
分类:互联网

SqlServer到Oracle数据库转换手记

博客分类：

9-DB

数据库转换

最近做了些数据库转换工作，主要是从Sql Server转换到Oracle，过程中遇到很多问题，现进行一个小小总结，方便有同样需求的朋友们。需要对数据库结构、数据、自定义函数、存储过程等数据库元素进行转换，由� ...

2011-12-15 15:58
浏览 1582
评论(1)
分类:数据库

关于职业生涯规划的一点想法

关于职业生涯规划的一点想法列车徐徐前行，我也一点点的离开成都，前往下一个目的地--南京。就交通方式而言，我可以选择更为快速的飞机，但之所以选择行程更长的火车，是想多留出来一点时间给自己思考；或者说，是想整理一下自己的想法，对自己、对部门的兄弟有个交代。如果我在这里的一点想法能够对客服兄弟们有所帮助的话，也不枉我趴在火车的卧铺上埋头创作了。在这之前，有些客服同事问我，客服该怎么样发展？客服的前途在哪里？就我个人而言，这个问题我不能给予一个肯定的答复。如果我说，你要做到什么样的职位、达到什么样的技术水平，那只是从单一的、主观的角度去思考的，就算我罗列出来一二三，有几条路可以走，那也是一个看似 ...

2011-09-22 10:44
浏览 1066
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于solr schema.xml 和solrconfig.xml的解释

Lucene的索引文件格式(3)

Lucene的总体架构

全文检索的基本原理

Lucene的索引文件格式(2)

Lucene的索引文件格式(1)

构建高性能Web站点

关于hibernate的缓存使用

据说看完这21个故事的人，30岁前都成了亿万富翁

java反射一些笔记

企业应用 VS 互联网

SqlServer到Oracle数据库转换手记

关于职业生涯规划的一点想法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>