`
ansjsun
  • 浏览: 203237 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
package org.apache.lucene.demo; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.Random; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache ...
在Catalina.bat 中加入如下就好了 set JAVA_OPTS=-Xms512m -Xmx512m  -XX:PermSize=128M -XX:MaxNewSize=512m -XX:MaxPermSize=512m 还有千万不要用hibernate自动生成的sessionFactory。不知道他的session线程池是怎么做的。。
 在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类。其中Analyzer是索引建立的基础,Directory是索引建立中或者建立好存储的介质,Document和Field类是逻辑结构的核心,IndexWriter是操作的核心。其他类的使用都被隐藏掉了,这也是为什么Lucene.Net使用这么方便的原因。   2.1 Analyzer   前面已经对Analyzer进行了很详细的讲解,Analyzer将会把一段文本分析称一个个Token。这些Token如何被IndexWriter使用,这里牵涉到一个很重要的类,那就是DocumentsWriter。这个类非常关键,可以说是 ...
Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链接(Invert Links)一直到建立索引(Index)都是采用MapReduce来完成的。查看Nutch的源代码我们能够学到更多的 如何用MapReduce来处理我们编程中所遇到的问题。 Nutc ...
http://blog.csdn.net/kauu/archive/2007/10/14/1823830.aspx Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、相关的数据结构 Crawl DB ● CrawlDb 是一个包含如下结构数据的文件:             <URL, CrawlDatum> ● CrawlDatum:         <status, date, interval, failur ...
TEAM : I.S.T.OAUTHOR : SUMMER 转载需注明出处,未经作者同意,不得用于任何形式的商业活动 主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题 主要内容 一、Lucene的索引机制与索引文件结构 二、Nutch的爬虫分析与文件结构分 ...
首先..因為javafx剛開始接觸..不是很熟悉..既然他能調用java類..所以我們用java來構建 地雷對象 /* * To change this template, choose Tools | Templates * and open the template in the editor. */ package landmine; /** * * @author Administrator */ public class Landmine { public Landmine getBottom() { return ...
在网上看了一些处理方法..都比较奇怪...找了半天没找到... 然后我是这么处理的不一定对.帖出来吧也许有的人有用..如果错了请大家指点 StringBuilder sb = new StringBuilder() ; SAXBuilder saxBuilder = new SAXBuilder(); InputStream is = new FileInputStream("F:/news/news/20090707/012@20090707155611.xml") ; Document doc = saxBuilder.build(new Inp ...
再发一个版本吧.. 具体实现了如下功能 用户自定义词典 其中你可以再userLibrary中加入你要分的词 英文分词 数字分词 量词分词 比如16月 16日 16年....... 支持了中文姓名的识别... 分词量很多.. 速度没好意思测试..如果有人测试了麻烦告诉我下... 希望大家能多给指正...ansj在这里谢谢大家了
经过了n长时间.有时候想放弃有时候.想继续断断续续的.终于写完了CQ分词的基本原型.目前实现了正向最大匹配.和正向最好匹配.全文全匹配取词等功能.希望大家能支持我.我一定会写出更好的分词的. 分词的速度.大家自己试去吧. ...
Global site tag (gtag.js) - Google Analytics