koduck

浏览: 1919 次
性别:
来自: 上海

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

SAX概念 SAX是Simple API for XML的缩写，它并不是由W3C官方所提出的标准，可以说是“民间”的事实标准。实际上，它是一种社区性质的讨论产物。虽然如此，在XML中对SAX的应用丝毫不比DOM少，几乎所有的XML解析器都会支持它。与DOM比较而言，SAX是一种轻量型的方法。我们知道，在处理DOM的时候，我们需要读入整个的XML文档，然后在内存中创建DOM树，生成DOM树上的每个Node对象。当文档比较小的时候，这不会造成什么问题，但是一旦文档大起来，处理DOM就会变得相当费时费力。特别是其对于内存的需求，也将是成倍的增长，以至于在某些应用中使用DOM是一件很不划算的事（比如在 ...

2010-03-03 23:42
浏览 593
评论(0)
分类:编程语言

lucene-2.4整合"庖丁解牛"

博客分类：

Lucene

lucene Apache Google .net

测试用的Lucene版本是lucene-2.4.0,它已经能够支持中文分词,但它是采用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使建立的索引非常庞大,会影响查询效率.所以大多运用lucene的朋友,都会考虑使用其它的中文分词包,这里我就介绍最为常用的"庖丁解牛"分词包,当然它也是一个值得推荐的中文分词包. 本文主要讲解Lucene如何整合"庖丁解牛"分词包,在整合前,还是先通过一个实例演示一下Lucene自带的中文分词器的分词效果. import java.io.StringReader; import o ...

2010-01-30 22:06
浏览 1326
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

SAX与XML

lucene-2.4整合"庖丁解牛"

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

SAX与XML

lucene-2.4整合"庖丁解牛"

最近访客更多访客>>