`
beyondqinghua
  • 浏览: 42412 次
  • 性别: Icon_minigender_1
  • 来自: 南昌
社区版块
存档分类
最新评论
文章列表
一、一、优化创建索引性能 这方面的优化途径比较有限,IndexWriter提供了一些接口可以控制建立索引的操作,另外我们可以先将索引写入RAMDirectory,再批量写入 FSDirectory,不管怎样,目的都是尽量少的文件IO,因为创建索引的最大瓶颈在于磁盘IO。另外选择一个较好的分词器也能提高一些性能。  
简介 Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免  费开源工具。就其本身而言,Lucene是目前以及最近几年最受欢迎的免费Java资讯检索程式库。人们经常提到资讯检索程式库,虽然与搜寻引擎有关,但不应该将资讯检索程式库与搜索引擎相混淆。 特点及优势
上一次  lucene初探(一):IKAnalyzer2012中文分词扩展初探 http://beyondqinghua.iteye.com/admin/blogs/1835986 已经尝试使用IK来分词,这次我们将学习如何将IK整合到lucene创建索引,并检索索引,例子分别使用lucene的英文分词工具、IK中文分词工具,代码依赖的包跟《IKAnalyzer2012中文分词扩展初探》一样。 1、创建一个模型对象 写道 package com.iris.scm.lucene.model; public class Publication { private Long id; priv ...
 1、到google下载IKAnalyzer2012 http://code.google.com/p/ik-analyzer/downloads/list   2、如果有maven本地服务仓库,直接把IKAnalyzer2012上传到本地maven仓库,无的话直接拷贝到项目lib目录   3、测试还需要使用到lucene的几个包,这边使用3.6.0版本 maven配置 <dependencies> <dependency> <groupId>org.apache.lucene</groupId> <ar ...
<defaultCache              maxElementsInMemory="10000"             //缓存中最大允许创建的对象数              eternal="false"             //缓存中对象是否为永久的,如果是,超时设置将被忽略,对 ...
  因为公司的单个业务数据达到千W级别,并且有源源不断的新数据进来。新数据进来都需要进行查重,重复数据不能进来,查重条件有很多字符串的对比,最大的字符串不超过1000个字符,但是字符串的比较,对于数据库来说,非常的耗性能,如果能将String转成数字来进行比较对于性能的提高将非常有用。     后来想到String有一个hashcode,看看能否使用:   <SPAN style="FONT-SIZE: small">/** * Returns a hash code for this string. The hash code for ...
 与使用BSTR相较而言,使用VARIANT算比较简单了,设置了类型信息和数据就完事,而且,从内存管理的角度来说,VARIANT的内存方式也相对接近常规化,因不了解而出问题的概率大大减少了,但是,为了避免万一的情况发生,我们总是不懈努力,这就是CComVariant出现的动机吧(个人诳语丷丷)。   哈哈,其实CComVariant的出现应该从VARIANT的不足谈起(也就是所谓的使用VARIANT要遵从的几个规则):   1.使用前必须初始化(使用VariantInit或设置VT_EMPTY)。  2.必须使用VariantCopy函数进行拷贝,因为VARIANT的类型未知,深浅拷贝需要正确。 ...
网页可见区域宽:document.body.clientWidth 网页可见区域高:document.body.clientHeight 网页可见区域宽:document.body.offsetWidth (包括边线的宽) 网页可见区域高:document.body.offsetHeight (包括边线的宽) 网页正文全文宽:document.body.scrollWidth 网页正文全文高:document.body.scrollHeight 网页被卷去的高:document.body.scrollTop 网页被卷去的左:document.body.scrollLeft 网页正文部分上:win ...
最近发现公司有一个更妙的方法来处理此问题,不必直接修改%tomcat%/conf/server.xml文件来添加数据源,这样加大了与服务器的绑定风险,而且如果我们是发布到别人的服务器上想修改%tomcat%/conf/server.xml几乎是不可能的事情。 这里的方法是: 直接在添加%WebApplicetion%/META-INF/context.xml 在context.xml中配置 <?xml version="1.0" encoding="UTF-8"?><Context>  <Resource    name= ...
配置好tomcat5.5的数据库连接池,相对以前的服务器版本会有些区别,在此把心得总结给大家,如有意见希望指点   一、服务器配置 1、配置全局的数据库连接池(此数据库连接池能在所有WEB服务器内站点使用) server.xml中设置数据源 在<GlobalNamingResources> </GlobalNamingResources>节点中加入 <Resource name="JNDI名字" auth="Container" type="javax.sql.DataSource"            ...
Spring定时器设置详解释 org.springframework.scheduling.quartz.CronTriggerBean允许你更精确地控制任务的运行时间,只需要设置其cronExpression属性。 一个cronExpression表达式有至少6个(也可能是7个)由空格分隔的时间元素。从左至右,这些元素的定义如下: 1.秒(0–59) 2.分钟(0–59) 3.小时(0–23)
    这学期大四,应聘上了深圳一家软件公司实习。现在上班也有一个半星期了吧,上个星期主要是熟悉公司现有项目的业务。昨天开始分配给我一项任务,就是做两个系统的数据交互,一开始还以为要用到webservice之类的东西,所以赶紧到网上查了一堆的资料。后来老大告诉我另外一个项目(数据提供源)的程序不能动,只限于数据库上的操作(源MS SERVER,目的ORACLE10G),那边服务器上提供FTP服务,所以刚开始考虑通过MS SERVER定时导出xml格式的数据,然后通过ftp把数据读取过来,然ORACLE的xml解析函数解析数据然后导入数据库。后来发现双方导入导出xml格式数据非常的麻烦,而且好象O ...
2、如何实现自定义的编译器 通常,一个编译器不仅仅要求编译您当前要编译的类,它必须先编译它说依赖的其他类,等其依赖的类加载进来后才能编译当前类,即其必须逐个编译它所依赖的每一个类。而且加载前必须把原代码文件与存在的编译文件的修改时间比较,如果原代码的修改时间后于编译过的文件,那么必须重新编译原文件。 import java.io.*;   //自定义类加载编译器 public class Compilation extends ClassLoader{    
1、认识类装载器: 类装入组件是 JAVA 虚拟机的基础,其是一个重要的、但又常常被我们忽略的 JAVA 运行时系统组件。它是负责在运行时查找和装入类文件的类,因此创建自己的 ClassLoader 可以非常方便的定制 JVM。 JAVA编译的程序是一种特殊的、独立于平台的格式,并非依赖于它们所运行的平台。JAVA编译的类文件在运行时并非立即全部都装入内存,而是根据程序需要装入内存,有点类似我们操作系统的虚拟存储管理,根据。ClassLoader 是 JVM 中将类装入内存的那部分。 JAVA的类加载器本身就是用 JAVA编写的,这意味着创建您自己的 ClassLoader 非常容易,不必了解 ...
任何试图更改生物钟的行为,都将给身体留下莫名其妙的疾病,20、30年之后再后悔,已经来不及了。  一、晚上9-11点为免疫系统(淋巴)排毒时间,此段时间应安静或听音乐。  二、晚间11-凌晨1点,肝的排毒,需在熟睡中进行。  三、凌晨1-3点,胆的排毒,亦同。  四、凌晨3-5点,肺的排毒。此即为何咳嗽的人在这段时间咳得最剧烈,因排毒动作已走到肺;不应用止咳药,以免抑制废积物的排除。  五、凌晨5-7点,大肠的排毒,应上厕所排便。六、凌晨7-9点,小肠大量吸收营养的时段,应吃早餐。疗病者最好早吃,在6点半前,养生者在7点半前,不吃早餐者应改变习惯,即使拖到9、10点吃都比不吃好。  七、半夜至凌 ...
Global site tag (gtag.js) - Google Analytics