- 浏览: 203237 次
- 性别:
- 来自: 北京
最新评论
-
毛毛虫小白:
您好,这里说的基于角色标注就是用到了字体位频率表里,在“名字内 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
assasszt:
请问 能不能加入写入文件功能,不然的话 是每次 执行 都是一个 ...
Java版本的BloomFilter (布隆过滤器) -
lhj_6270:
楼主不错。果然不是一般人。再接再厉弄个软件出来。
Java版本的BloomFilter (布隆过滤器) -
ansjsun:
fncj 写道你好,我们最近要搞一个人名识别功能,发现有两个问 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词 -
fncj:
你好,我们最近要搞一个人名识别功能,发现有两个问题:1、里有不 ...
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
文章列表
package org.apache.lucene.demo;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.Random;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache ...
在Catalina.bat 中加入如下就好了
set JAVA_OPTS=-Xms512m -Xmx512m -XX:PermSize=128M -XX:MaxNewSize=512m -XX:MaxPermSize=512m
还有千万不要用hibernate自动生成的sessionFactory。不知道他的session线程池是怎么做的。。
在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类。其中Analyzer是索引建立的基础,Directory是索引建立中或者建立好存储的介质,Document和Field类是逻辑结构的核心,IndexWriter是操作的核心。其他类的使用都被隐藏掉了,这也是为什么Lucene.Net使用这么方便的原因。
2.1 Analyzer
前面已经对Analyzer进行了很详细的讲解,Analyzer将会把一段文本分析称一个个Token。这些Token如何被IndexWriter使用,这里牵涉到一个很重要的类,那就是DocumentsWriter。这个类非常关键,可以说是 ...
- 2009-12-02 13:07
- 浏览 1591
- 评论(0)
Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链接(Invert Links)一直到建立索引(Index)都是采用MapReduce来完成的。查看Nutch的源代码我们能够学到更多的 如何用MapReduce来处理我们编程中所遇到的问题。
Nutc ...
- 2009-11-20 11:33
- 浏览 1875
- 评论(0)
http://blog.csdn.net/kauu/archive/2007/10/14/1823830.aspx
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。
一、相关的数据结构
Crawl DB
● CrawlDb 是一个包含如下结构数据的文件:
<URL, CrawlDatum>
● CrawlDatum:
<status, date, interval, failur ...
- 2009-11-18 16:18
- 浏览 1655
- 评论(0)
TEAM : I.S.T.OAUTHOR : SUMMER
转载需注明出处,未经作者同意,不得用于任何形式的商业活动
主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题
主要内容
一、Lucene的索引机制与索引文件结构
二、Nutch的爬虫分析与文件结构分 ...
- 2009-11-18 16:03
- 浏览 1710
- 评论(0)
首先..因為javafx剛開始接觸..不是很熟悉..既然他能調用java類..所以我們用java來構建
地雷對象
/*
* To change this template, choose Tools | Templates
* and open the template in the editor.
*/
package landmine;
/**
*
* @author Administrator
*/
public class Landmine {
public Landmine getBottom() {
return ...
- 2009-08-17 13:30
- 浏览 1295
- 评论(0)
在网上看了一些处理方法..都比较奇怪...找了半天没找到...
然后我是这么处理的不一定对.帖出来吧也许有的人有用..如果错了请大家指点
StringBuilder sb = new StringBuilder() ;
SAXBuilder saxBuilder = new SAXBuilder();
InputStream is = new FileInputStream("F:/news/news/20090707/012@20090707155611.xml") ;
Document doc = saxBuilder.build(new Inp ...
- 2009-08-07 11:16
- 浏览 1906
- 评论(3)
再发一个版本吧..
具体实现了如下功能
用户自定义词典
其中你可以再userLibrary中加入你要分的词
英文分词
数字分词
量词分词
比如16月 16日 16年.......
支持了中文姓名的识别...
分词量很多..
速度没好意思测试..如果有人测试了麻烦告诉我下...
希望大家能多给指正...ansj在这里谢谢大家了
- 2009-08-06 15:16
- 浏览 2184
- 评论(8)
经过了n长时间.有时候想放弃有时候.想继续断断续续的.终于写完了CQ分词的基本原型.目前实现了正向最大匹配.和正向最好匹配.全文全匹配取词等功能.希望大家能支持我.我一定会写出更好的分词的.
分词的速度.大家自己试去吧. ...