一些分词中用到的公式-参考ictclas -

ansjsun

浏览: 205607 次
性别:
来自: 北京

最近访客更多访客>>

永无止境2313

mysql_dba

慕容诗雨

heartandheart

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

一些分词中用到的公式-参考ictclas

//计算平滑系数公式

//平滑参数
dSmoothingPara = 0.1
//设置当前节点的频度，如果是已知词性，直接使用频度
dCurFreqency
//一个参数
static int MAX_FREQUENCE = 2079997;
//Two linked Words frequency
dTemp = (double) 1 / MAX_FREQUENCE;
//两词之间的词频?关联度?
nTwoWordsFreq = DictBinary.GetFrequency(sTwoWords, 3);


//这个词的平度
			if (pCur.p.nPOS >= 0) {
				// It's not an unknown words
				dCurFreqency = pCur.p.value;
			} else {
				// Unknown words
				//如果是未知词性，从核心词典中检索词组汉字对应2的频度
				dCurFreqency = DictCore.GetFrequency(pCur.p.sWord, 2);
			}
			
			
			/**
		 * 得到具体词和词性的频度数据
		 * 
		 * @param sWord
		 *            单词
		 * @param nHandle
		 *            词性
		 * @return 频度
		 */
		public int GetFrequency(char[] sWord, int nHandle) {
			char sWordFind[] = new char[WORD_MAXLENGTH - 2];
			int nPos, nIndex;
			PWORD_CHAIN pFound;
			Pint pnPos = new Pint();
			if (!PreProcessing(sWord, pnPos, sWordFind))
				return 0;
			nPos = pnPos.value;
	
			Pint pnIndex = new Pint();
			if (FindInOriginalTable(nPos, sWordFind, nHandle, pnIndex)) {
				nIndex = pnIndex.value;
				return m_IndexTable[nPos].pWordItemHead[nIndex].p.nFrequency;
			}
			nIndex = pnIndex.value;
	
			PPWORD_CHAIN ppFound = new PPWORD_CHAIN(new PWORD_CHAIN(
					new WORD_CHAIN()));
			if (FindInModifyTable(nPos, sWordFind, nHandle, ppFound)) {
				return ppFound.p.p.data.nFrequency;
			}
			return 0;
		}

dValue = -Math
						.log(dSmoothingPara * (1 + dCurFreqency) / (MAX_FREQUENCE + 80000)+ (1 - dSmoothingPara)* ((1 - dTemp) * nTwoWordsFreq/ (1 + dCurFreqency) + dTemp));

分享到：

Totoro中文分词第二版上线啦 | 一晚上整理出来的激动

2012-08-08 11:17
浏览 2730
评论(6)
分类:编程语言
查看更多

6 楼 ansjsun 2012-11-06

小网客写道

ansjsun 写道

小网客写道

采用Ansj切词

你好我代码如下

String format = "%s\tuserDefine\t1000";
		List<String> dic = new ArrayList<String>();
		
		dic.add("我是特种兵") ;
		for (int i = 0; i < dic.size(); i++) {
			Library.insertWord(UserDefineLibrary.FOREST, String.format(format, new Object[] { dic.get(i) }));
		}
		
		System.out.println(ToAnalysis.paser("我是特种兵是一部很好看的电影!"));

没有报错啊..你是不是你的用户自定义词典中包含\t的符号..这样的话词典不支持加载的

灰常感谢，版本不一样，我升级下试试

好的..你升级完了告诉我下...谢谢关注

5 楼小网客 2012-11-06

ansjsun 写道

小网客写道

采用Ansj切词

你好我代码如下

String format = "%s\tuserDefine\t1000";
		List<String> dic = new ArrayList<String>();
		
		dic.add("我是特种兵") ;
		for (int i = 0; i < dic.size(); i++) {
			Library.insertWord(UserDefineLibrary.FOREST, String.format(format, new Object[] { dic.get(i) }));
		}
		
		System.out.println(ToAnalysis.paser("我是特种兵是一部很好看的电影!"));

没有报错啊..你是不是你的用户自定义词典中包含\t的符号..这样的话词典不支持加载的

灰常感谢，版本不一样，我升级下试试

4 楼 ansjsun 2012-11-05

小网客写道

采用Ansj切词

你好我代码如下

String format = "%s\tuserDefine\t1000";
		List<String> dic = new ArrayList<String>();
		
		dic.add("我是特种兵") ;
		for (int i = 0; i < dic.size(); i++) {
			Library.insertWord(UserDefineLibrary.FOREST, String.format(format, new Object[] { dic.get(i) }));
		}
		
		System.out.println(ToAnalysis.paser("我是特种兵是一部很好看的电影!"));

没有报错啊..你是不是你的用户自定义词典中包含\t的符号..这样的话词典不支持加载的

3 楼 ansjsun 2012-11-05

public static void main(String[] args) throws IOException {
		
		UserDefineLibrary.insertWord("我是特种兵","userDefine",100) ;
		
		System.out.println(ToAnalysis.paser("我是特种兵是一部很好看的电影!")); ;
		
	}

用这个方法导入用户词典..那个报错肯定是..格式化字符串不对的.

2 楼小网客 2012-11-05

采用Ansj切词

1 楼小网客 2012-11-05

使用
采用用户自定义词典的时候不定期抛异常
java.lang.NumberFormatException: For input string: "userDefine"
at java.lang.NumberFormatException.forInputString(NumberFormatException.java:48)
at java.lang.Integer.parseInt(Integer.java:449)
at java.lang.Integer.parseInt(Integer.java:499)
at love.cq.util.ObjectBean.getInt(ObjectBean.java:6)
at org.ansj.util.recognition.UserDefineRecognition.recongnitionTerm(UserDefineRecognition.java:69)
at org.ansj.splitWord.analysis.ToAnalysis$1.merger(ToAnalysis.java:49)
at org.ansj.splitWord.analysis.ToAnalysis.getResult(ToAnalysis.java:68)
at org.ansj.splitWord.Analysis.analysis(Analysis.java:169)
at org.ansj.splitWord.Analysis.next(Analysis.java:92)
at com.panguso.recommend.ar.service.ArSegmentImpl.segByAnsj(ArSegmentImpl.java:271)
at com.panguso.recommend.ar.service.ArSegmentImpl.segment(ArSegmentImpl.java:93)
at com.panguso.recommend.ar.mapper.ArSegmentMapper.map(ArSegmentMapper.java:75)
at com.panguso.recommend.ar.mapper.ArSegmentMapper.map(ArSegmentMapper.java:45)
用户自定义词典导入如下：
private void loadAnsjDic() {
String format = "%s\tuserDefine\t1000";
List<String> dic = Utils.getDicList();
for (int i = 0; i < dic.size(); i++) {
Library.insertWord(UserDefineLibrary.FOREST,
String.format(format, new Object[] {dic.get(i)}));
}
}

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一些分词中用到的公式-参考ictclas

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一些分词中用到的公式-参考ictclas

评论

发表评论

相关推荐

最近访客更多访客>>