- 浏览: 1276955 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
大概想法是这样:
找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。
例如:
一篇文章中,没有找到的所有字符串有:
1、杨瑞第集国宁你们
2、杨瑞来你们来国宁
3、过来要不要去
4、要不要过来啊
经过新词挖掘,可以得到
杨瑞->你们->国宁->要不要->过来->
欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~
找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。
例如:
一篇文章中,没有找到的所有字符串有:
1、杨瑞第集国宁你们
2、杨瑞来你们来国宁
3、过来要不要去
4、要不要过来啊
经过新词挖掘,可以得到
杨瑞->你们->国宁->要不要->过来->
欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~
package wss.analysis.analyzer; import java.util.ArrayList; import java.util.Iterator; import java.util.List; /** * @author Loiy * @time 2011-10-26 * @return 新词挖掘 */ public class newWordAnalyzer { public List<String> list = new ArrayList<String>(); public List<String> word = new ArrayList<String>(); public void findWord(String text){ Iterator<String> iter = list.iterator(); while(iter.hasNext()){ String str = iter.next(); match(str,text); } list.add(text); } /** * @param s1 词库 * @param s2 待挖掘新词的字符串 * @return 查找两个字符串共同子字符串,并返回.子字符串必须大于等于2 */ public void match(String s1, String s2){ char c1[] = s1.toCharArray(); char c2[] = s2.toCharArray(); int j = 0; boolean bool = false; // 上次是否匹配成功 true 匹配成功 false 匹配失败 int start = -1,end = -1; // 开始匹配位置;结束匹配位置 for(int i = 0; i < c2.length; i++){ for(; j < c1.length; j++){ if(c2[i] == c1[j] && j != c1.length - 1){ // 找到匹配,还不到第二个循环最后一个字符 if(start == -1) start = i; if(i == c2.length - 1) end = i; // 到第一个循环最后,赋值把i赋值给end bool = true; j = j + 1; break; // 结束该循环,查找第一个循环的下个字符(A),A从第二个循环下标为j+1开始找 } if(c2[i] == c1[j] && j == c1.length - 1){ // 找到匹配,到第二个循环最后一个字符 end = i; // 这里i不需要减1,因为已经到了第二个循环最后一个元素 if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } j = 0; start = -1; end = -1; break; } if(bool){ //匹配到这个下标结束,开始总计到目前为止相连字符有多少个 end = i - 1; // 上次成功匹配到的字符位置 //System.out.println(end+" "+start); if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } //System.out.println("<--i="+i+" "+c2[i]+" j="+j+" "+c1[j]+"-->"); bool = false; start = -1; end = -1; i--; // 匹配失败,第一个循环下标减1 j = 0; // 第二个循环下标从零开始. break; } if(j == c1.length -1){ // 第一个循环某个字符到第二个循环最后一个字符,还是匹配不到,那么 j=0; j = 0; break; } } } if(start != -1 && (end - start >= 1)){ // 相连字符长度大于等于2,打印出来 word.add(s2.substring(start, end + 1)); } } public String toString(){ Iterator<String> iter = word.iterator(); StringBuffer sb = new StringBuffer(); while(iter.hasNext()){ String str = iter.next(); if(str.length() <= 1) continue; sb.append(str).append("->"); } String result = sb.toString(); sb.setLength(0); sb = null; return result; } public static void main(String args[]){ newWordAnalyzer wordExcavate = new newWordAnalyzer(); wordExcavate.findWord("杨瑞第集国宁你们"); wordExcavate.findWord("杨瑞来你们来国宁"); wordExcavate.findWord("过来要不要去"); wordExcavate.findWord("要不要过来啊"); String t = wordExcavate.toString(); System.out.println(t); } }
发表评论
-
平滑函数
2013-10-11 18:04 724http://wenku.baidu.com/view/3f0 ... -
作热排名算法(hot ranking)的工作原理
2013-08-29 23:11 1578重点描述上面两个公式: Ts = A – B 相当于 ... -
单向链表
2011-07-29 14:02 1039单向链表(单链表)是链表的一种,其特点是链表的链接方向是单向的 ... -
求最长公共子序列
2011-07-29 12:52 1161/** * 引进一个二维数组c[][],用c[i][j ... -
动态规划实例篇
2011-07-29 00:25 1311动态规划思想: 把问题规模不断缩小成小问题,并求解出小问题的结 ... -
动态规划的基本思想
2011-07-28 10:09 969前文主要介绍了动态规 ... -
LRU算法
2010-10-25 14:18 792标记一下!!! -
用整型来表示MD5生成的32位字符串
2010-09-02 23:17 1334由MD5生成的32位这样的字符串有N多。现在想问一下,怎么才能 ... -
水仙花数
2009-12-23 22:03 1061public class ShuiXianTest { ... -
LZW压缩算法原理及其Java实现
2009-04-01 21:42 8664LZW压缩算法是一种新颖 ... -
LZW数据压缩算法的原理分析
2009-04-01 21:40 2315我希望通过本文的介绍,能给那些目前不太了解lzw算法和该算 ... -
关键词权重的量化方法TF/IDF
2008-12-28 22:14 7989写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会 ... -
tf-idf
2008-12-28 22:12 2486TF-IDF(term frequency–inverse d ... -
课题背景概述
2008-12-28 02:58 1839文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人 ... -
KNN算法 基本思想
2008-12-27 10:08 5303KNN(K 最近邻居)算法 该算法的基本思路是:在给定新 ... -
基于词性的特征提取方法
2008-12-27 09:58 5274上一节所介绍的这些方 ... -
谈 Page Rank – Google 的民主表决式网页排名技术
2008-12-25 07:44 933谈 Page Rank – Google 的民 ... -
一个网页和某个查询的相关性
2008-12-25 07:32 905[我们已经谈过了如何自 ... -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
2008-12-25 06:29 992数学之美系列六 -- 图论 ... -
数学之美系列一:图论和网络爬虫 (Web Crawlers)
2008-12-25 06:16 1467数学之美系列一:图论 ...
相关推荐
在本项目实践中,我们主要关注的是人工智能领域中的自然语言处理(NLP)技术,特别是新词挖掘和预训练模型的持续预训练。新词挖掘是NLP中的一个重要环节,它帮助我们识别和提取文本中未被传统词汇资源收录的新兴词汇...
jieba采用HMM(隐马尔科夫模型)和BMES(Begin-Middle-End-Single)标注算法,支持精确模式、全模式和搜索引擎模式,同时还提供了词性标注、新词发现等功能,适合各种文本处理任务,尤其在互联网数据挖掘中广泛应用...
"scws中文分词组件"是一个专为处理中文文本而设计的开源工具,它主要用于将连续的汉字序列切分成具有语义的独立词汇,这一过程称为中文分词。中文分词是自然语言处理(NLP)中的基础步骤,对于信息检索、文本分析、...
在构建高效、精准的中文搜索引擎时,分词是关键的第一步,它能够将连续的汉字序列切分成有意义的词语,使得计算机可以进一步理解和处理这些信息。 中文分词的难度在于汉语的灵活性和多义性,同一个词语在不同的上...
在信息爆炸的时代,中文信息处理成为了技术发展的重要领域,其中中文分词作为基础环节,对于自然语言处理、搜索引擎优化、文本挖掘等应用场景至关重要。今天我们要介绍的是一款免费的中文分词组件,这款组件可能对...
在中文自然语言处理(NLP)领域,分词是预处理的重要步骤,它将连续的汉字序列切分成具有语义的词汇单元。"jieba"因其易用性和高效性而广受欢迎,尤其适合于对大量中文文本进行分析、挖掘和信息提取。 该项目的核心...
IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...
Ik分词器6.3.0版的出现,为Solr提供了一个优秀的中文分词解决方案,能够处理各种复杂的中文表达和网络用语,包括成语、缩写、新词等。 Ik分词器的特色在于其动态加载词库和自定义扩展能力。用户可以根据实际需求...
中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语单元的过程。这个过程对于后续的文本分析,如情感分析、关键词提取、机器翻译等至关重要。以下是一些在给定的压缩包...
中文分词是自然语言处理中的关键技术之一,尤其在中文搜索引擎、信息检索、文本挖掘等领域扮演着重要角色。IKAnalyzer 是一款专门针对中文处理的开源分词器,它为 Lucene 搜索引擎提供高效的中文分词支持。Lucene 是...
IKAnalyzer,作为一款高效、易用的中文分词组件,能够有效地将连续的汉字序列切分成具有语义的词汇单元,提升搜索结果的相关性和准确性。 **IKAnalyzer的特性与优势:** 1. **灵活定制**:IKAnalyzer支持自定义词典...
### 中文分词技术及其实现 #### 摘要 随着互联网的快速发展和个人化信息需求的日益增长,网络信息挖掘技术成为了当前研究的重要领域之一。对于中文信息处理而言,中文分词技术作为基础环节至关重要。不同于英语等...
例如,搜索引擎、自动翻译、语音识别、信息检索、自动分类、自动摘要、文本自动校对及数据挖掘等技术的发展都离不开高效的中文分词算法。中文分词不仅涉及到语言学的基础理论,还涉及到计算机科学中的算法设计与优化...
本组件主要关注的是如何设计和实现一个有效的中文分词系统,以便更好地服务于web文本挖掘领域。在这个过程中,我们将探讨web文本挖掘的分类、静态和动态统计分析,以及中文分词技术的关键要素。 一、Web文本挖掘的...
在自然语言处理(NLP)领域,中文分词是一项基础且关键的任务,它是指将连续的汉字序列切分成具有实际语义的词汇单元。在这个任务中,“最短路径分词算法”是一种常用的策略,用于解决如何高效准确地完成分词工作。...
《中文分词技术详解——基于"CJK.rar"的探索》 中文分词是自然语言处理领域中的...无论是对于学术研究还是实际应用,理解并掌握中文分词都至关重要,它将有助于我们更好地挖掘和利用中文信息,推动信息技术的发展。
和jieba分词、HanLP等其他流行的中文分词器相比,IKAnalyzer在Java环境下具有较高的性能和稳定性,但可能在灵活性和新词识别上略逊一筹。选择哪种分词器应根据项目需求和所用技术栈来决定。 总之,IKAnalyzer是一...
Java实现的中文分词算法是自然语言处理领域中的重要技术,尤其在文本挖掘、搜索引擎、信息检索等场景中发挥着关键作用。FMM(Fast Mapping Model)和BMM(Bigram Mapping Model)是两种常见的中文分词算法,它们都是...
中文分词工具是自然语言处理领域中的重要工具,主要用于将连续的汉字序列切分成具有语义的单个词汇。在中文文本分析、信息检索、机器翻译等应用中,分词是预处理的第一步,因为中文没有像英文那样的空格来自然地划分...
中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要。IK Analyzer的设计理念是轻量级且高效,旨在为开发者提供简单易用的接口,以便快速集成到各种系统中。 **1. 分词...