CWSS是一个开源的中文分词系统

lzj0470

浏览: 1287186 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene Apache 活动 D语言 Google

CWSS是一个开源的中文分词系统，其中它有两个版本。一个是提供对lucene3.0的支持。一个是纯中文分词，主要是为了方便大家使用。

CWSS1.0由来
一个星期疯狂啃读中科院和paoding分词过程中，突然想开发一套中文分词。

CWSS1.0的特性：
1、采用了中科院的做法，断句处理，原子处理。
2、基于“词库”切词。
3、支持简繁体。

下载地址
http://code.google.com/p/cwss/

测试地址
http://www.agrilink.cn/cwss.jsp

分词效果示例
原文
CWSS是一个开源的，基于java语言开发的轻量级的中文分词工具包,并提供对lucene3.0的支持。目前正在测试阶段,暂不开源代码.测试完毕.在以GPL开源协议发布.
分词后
CWSS/是/一个/开源/的/基于/java/语言/开发/的/轻量级/量级/的/中文/分词/工具/工具包/并/提供/对/lucene3.0/的/支持/目前/前/正在/测试/阶段/暂/不开/源代码/代码/./测试/完毕/.在以/GPL/开源/协议/发布/./

原文
作者博客：loiy.iteye.com 电子邮件：lzj0470@163.com
分词后
作者/博客/loiy.iteye.com/电子/邮件/lzj0470@163.com/

原文
甘刑一终字第200号
分词后
甘刑一/终字/第/200/号/

原文
北大学生活动
分词后
北大/学生/活动/

原文
的的确确实实在在
分词后
的的确确/的确/实实在在/实在/

原文
我和你都很棒
分词后
我/和/你/都很/很棒/

原文
永和服装饰品有限公司
分词后
永和/服装/饰品/有限/公司/

原文
你欠我一万九千八百零五毛
分词后
你/欠/我/一万九千八百零五/毛/

原文
你到底喜不喜欢我
分词后
你/到底/喜/不/喜欢/我/

原文
你说不说，不说打PP
分词后
你/说不说/不说/打/PP/

lucene3.0示例

package wss.analysis.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;

import wss.analysis.analyzer.wssAnalyzer;

public class testLucene {

	private Analyzer analyzer = new wssAnalyzer();
	
	/**
	 *  content文件夹存在两个文件。文件内容分别是
	 *  1、朝鲜队小组必出线内幕：赛前全队必读知音和故事会
	 *  2、CWSS是一个开源的，基于java语言开发的轻量级的中文分词工具包,并提供对lucene3.0的支持。目前正在测试阶段,暂不开源代码.测试完毕. 在以GPL开源协议发布.
	 *  3、世界杯朝鲜输掉了
	 */
	private String getString(Reader input) throws IOException{
		BufferedReader buf;
		buf = new BufferedReader(input);
		String str;
		StringBuffer sb = new StringBuffer();
		while ((str = buf.readLine()) != null) {        
			sb.append(str);    
	    }
		str = sb.toString();
		sb = null;
		return str;
	}
	
	private void index() throws CorruptIndexException, LockObtainFailedException, IOException{
		 File indexDir=new File("D:/luceneIndex/");  
		 //需要建立索引的文档集合的位置  
		  File docDir = new File("D:/content/");   
		 //创建索引器(核心)  
		 IndexWriter standardWriter = new IndexWriter(FSDirectory.open(indexDir), analyzer, true , IndexWriter.MaxFieldLength.LIMITED);//new IndexWriter(FSDirectory.open(indexDir),analyzer, true, IndexWriter.MaxFieldLength.LIMITED);           
		 //不建立复合式索引文件，默认的情况下是复合式的索引文件  
		 standardWriter.setUseCompoundFile(false);  
		 //为原文档集合中的每个文档的相关信息建立索引  
		 for (File fileSrc : docDir.listFiles()) {     
		         //Lucene的文档结构  
		         Document doc = new Document();                       
		         //文件名称，可查询，不分词  
		         String fileName=fileSrc.getName().substring(0,fileSrc.getName().indexOf("."));
		         doc.add(new Field("name",fileName, Field.Store.YES, Field.Index.NOT_ANALYZED));    
		          //文件路径，可查询，不分词  
		         String filePath=fileSrc.getPath();  
		         doc.add(new Field("path", filePath, Field.Store.YES, Field.Index.NOT_ANALYZED));  
		         //文件内容，需要检索
		         doc.add(new Field("content", getString(new FileReader(fileSrc)),Field.Store.YES,Field.Index.ANALYZED));              
		         //使用索引器对Document文档建索引  
		        standardWriter.addDocument(doc);    
		 }    
		 //关闭索引器，并写入磁盘索引文件  
		 standardWriter.optimize();    
		 standardWriter.close();  
	}
	
	private void search(String keyword){
		File indexDir=new File("D:/luceneIndex/"); 
		Directory directory;
		IndexSearcher isearcher = null;
		//实例化搜索器   
		try {
			directory = FSDirectory.open(indexDir);
			isearcher = new IndexSearcher(directory);
			QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "content",
					analyzer);
			//使用IKQueryParser查询分析器构造Query对象
			Query query = parser.parse(keyword);
			
			//搜索相似度最高的5条记录
			TopDocs topDocs = isearcher.search(query, 2);
			System.out.println("命中：" + topDocs.totalHits);
			//输出结果
			ScoreDoc[] scoreDocs = topDocs.scoreDocs;
			for (int i = 0; i < topDocs.totalHits; i++){
				Document targetDoc = isearcher.doc(scoreDocs[i].doc);
				System.out.println("内容：" + targetDoc.toString());
			}
		} catch (CorruptIndexException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (ParseException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	public static void main(String[] args) throws IOException {
		testLucene lucene = new testLucene();
		lucene.index();
		lucene.search("java");
		lucene.search("朝鲜");
	}
}
建立索引与搜索结果。
命中：1
内容：Document<stored,indexed<name:2> stored,indexed<path:D:\content\2.txt> stored,indexed,tokenized<content:CWSS是一个开源的，基于java语言开发的轻量级的中文分词工具包,并提供对lucene3.0的支持。目前正在测试阶段,暂不开源代码.测试完毕. 在以GPL开源协议发布.>>
命中：2
内容：Document<stored,indexed<name:3> stored,indexed<path:D:\content\3.txt> stored,indexed,tokenized<content:世界杯朝鲜输掉了>>
内容：Document<stored,indexed<name:1> stored,indexed<path:D:\content\1.txt> stored,indexed,tokenized<content:朝鲜队小组必出线内幕：赛前全队必读知音和故事会>>

讨论群
75484225

结束语
欢迎大家使用。如果你认为分词不好，可以给我留言，我会尽量补修不足的地方。如果你认为不错，也可以发信息给我，鼓励一下下。

分享到：

每次下班都能看到兰博基尼，我啥时候才能拥 ... | Java 集合对象排序

2010-07-01 14:46
浏览 2250
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

cwss 按照指定的字符进行切词: 综上所述，cwss是一个灵活的中文分词工具，允许用户自定义分词规则，其开源特性为开发者提供了深入研究和扩展的可能性。通过提供的博客链接和压缩包文件，我们可以学习到更多关于如何使用和定制该工具的信息，以及它...

家庭支出与收入数据数据集，根据人口统计和地理指标进行了分类，加拿大为例，适用于数据分析、机器学习: 这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据，这些数据根据人口统计和地理指标进行了分类。每行代表了年份（REF_DATE）、省份（GEO）以及编码后的支出或收入类型的唯一组合（COORDINATE）。以下是该数据集的关键特点及包含的列信息：关键特点：支出数据：家庭支出按照收入五分位数和支出类别进行分类。收入数据：家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。地理位置匿名化：为了保护隐私，原始的地理位置标识符被替换为如“Province 1”这样的标签。时间序列：涵盖了超过十年的财务数据（2010–2021），适合用于纵向经济和社会趋势分析。包含的列： REF_DATE：记录年份（2010–2021） GEO：省份标签（例如，“Province 1”） Statistic：度量类型（例如，平均家庭支出） Before-tax household income quintile：税前家庭收入水平分组 Household expenditures, summary-level categories：支出类别 UOM：计量单位 COORD

【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测（Matlab完整源码和数据）: 1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测（Matlab完整源码和数据） 2.数据集：NASA数据集，已经处理好，B0005电池训练、测试； 3.环境准备：Matlab2023b，可读性强； 4.模型描述：GRU门控循环单元在各种各样的问题上表现非常出色，现在被广泛使用。 5.领域描述：近年来，随着锂离子电池的能量密度、功率密度逐渐提升，其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

【更新至2024年】2000-2024年各省专利侵权案件结案数数据: 2000-2024年各省专利侵权案件结案数数据 1、时间：2000-2024年 2、来源：国家知识产权J 3、指标：专利侵权案件结案数 4、范围：31省 5、用途：可用于衡量知识产权保护水平

HMTL+JS+CSS实现贪吃蛇游戏，包含有一般模式，困难模式，还有无敌模式: - 使用`<div>` 容器组织游戏界面，包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择（一般模式、困难模式、无敌模式） - 移动端和桌面端兼容，提供触摸和键盘两种控制方式 2. CSS样式： - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑： - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式，不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成，使游戏更具趣味性代码整体结构清晰，功能完整，具有良好的可扩展性和可维护性。

附件2-5：台区智能融合终端入网专业检测送检样品主要元器件清单.docx: 台区终端电科院送检文档

基于强化学习的飞机升阻力特性预测模型实现及应用（含详细可运行代码及解释）: 内容概要：本文详细介绍了一个基于强化学习（RL）的飞机升阻力特性预测模型的实现过程。首先，定义了飞机空气动力学环境，包括状态空间、动作空间以及目标——预测升力系数（Cl）和阻力系数（Cd）。接着，通过生成模拟数据并进行预处理，创建了用于训练的数据集。然后，构建了一个神经网络代理模型，用于联合编码状态和动作，并预测升阻力系数。最后，实现了PPO算法来训练强化学习代理，使其能够根据当前状态选择最优动作，并通过不断迭代提高预测精度。文中还提供了完整的代码实现和详细的注释。适合人群：航空航天领域的研究人员、机器学习工程师、对强化学习感兴趣的开发者。使用场景及目标：适用于需要预测飞机升阻力特性的应用场景，如飞行器设计优化、性能评估等。目标是通过强化学习方法提升预测模型的准确性，从而为实际工程提供可靠的理论支持和技术手段。其他说明：本文不仅涵盖了模型的设计与实现，还包括了数据生成、预处理等多个环节，有助于读者全面理解整个建模过程。同时，提供的代码可以作为研究和开发的基础，方便进一步扩展和改进。

cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa: cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

lsm6d datasheet: lsm6d datasheet

风力发电机传动机构的设计（增速器）.rar: 风力发电机传动机构的设计（增速器）

genesys-zu（5ev）配置petalinux（从安装到嵌入）: genesys-zu（5ev）配置petalinux（从安装到嵌入）

django自建博客app: django自建博客app

基于android平台的学生选课系统的设计与实现.zip: Android项目原生java语言课程设计，包含LW+ppt

幼儿园预防肺结核教育培训课件资料.pptx: 幼儿园预防肺结核教育培训课件资料

STM32F103RCT6单片机控制气泵和电磁阀的开关，气泵和电磁阀的开和关均为开关量，使用mos管控制，mos管选择主要注意两个参数即可，一是导通的电流，二是耐压值，并且常用NMOS管: STM32F103RCT6单片机控制气泵和电磁阀的开关 1、气泵和电磁阀的开和关均为开关量，实现控制方法有多种，比如继电器，但是继电器动作有噪声且体积较大，更好的方法为使用mos管。 2、mos管的选型：mos管选择主要注意两个参数即可，一是导通的电流，二是耐压值，并且常用NMOS管，根据要求，气泵和电磁阀供电电压为12V，所以选择的mos管耐压值要大于12V，这里选用耐压值为30V的MOS管，并且导通电流为5.8A。

面板数据-全国各省金融监管强度数据集-含处理代码（2009-2023年）.txt: 因文件较多，数据存放网盘，txt文件内包含下载链接及提取码，永久有效。失效会第一时间进行补充。样例数据及详细介绍参见文章：https://blog.csdn.net/T0620514/article/details/146916073

将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件: 将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件

计量自动化终端技术规范第2-5部分：智能量测终端功能模组接口协议（2023年6月）.pdf: 智能量测终端最新标准

滑道式提升机及其控制电路的设计.zip: 滑道式提升机及其控制电路的设计.zip

《基于YOLOv8的化工管道焊缝缺陷检测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论