本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- johnsmith9th
- lzyfn123
- zhanjia
- forestqqqq
- nychen2000
- ajinn
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- mwhgJava
- silverend
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
基于word分词提供的文本相似度算法来实现通用的网页相似度检测
实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测
运行结果:
检查的博文数:128
1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 ...
利用word分词来对文本进行词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能
命令行脚本的调用方法如下:
将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运 ...
利用word分词来计算文本相似度
word分词提供了多种文本相似度计算方式:
方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度
实现类:org.apdplat.word.analysis.CosineTextSimilarity
用法如下:
String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = ...
一种利用ngram模型来消除歧义的中文分词方法
这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。
消除歧义的目的就是从切分结果中挑选切分正确的。
假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:
一种基于词性序列的人名识别方法
在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?
下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词:
人名识别:[我, 爱, 杨, 尚, 川]
识别到人名:爱杨尚
识别到人名:杨尚川
识别到人名:尚川
开始从多个识别 ...
怎样把pdf转换成word-多语言ocr支持
http://jingyan.baidu.com/article/86fae34699bb4e3c49121a23.html
PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WORD格式的方法。▲下面的六款软件中,前三个适用于普通的 ...
中文分词之11946组同义词
这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。
一下子 一会儿 一忽儿 转瞬 须臾
一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟
一丝一毫 一点一滴
一丝不挂 寸丝不挂 袒裼裸裎 赤身露体
一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微
一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到
一举 ...
java将excel转换为HTML
1.Maven工程中主要添加的依赖
<!--处理excel、word-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
&l ...
SOLR4.2+NUTCH1.6
1、SOLR4.2集成NUTCH1.6
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...
Word符号,教你怎么在方框里打钩?
简介
有时我们在Word中制作一份特殊的表格时,可能会用到这样一些特殊符号,“在方框里打钩”或打叉。这些符号虽看起来简单不起眼,也许随处可见,但是该自己动手做起来的时候就觉得无从下手,摸不着头脑了。这里Word联盟针对本文方框里打钩的两种不同实现方法,来为大家做个简单教程,可以让各位网友以后遇见需求时,可以及时的对应。在方框里打钩的第一种方法:利用带圈数字来实现。方法如下。
...
word复制粘贴导致表格显示不全解决方案
相信大家在做需求分析以及其他日常工作中都会用到word,并且经常会在几份word相互复制粘贴,粘贴过来的表格有时候就出现显示不全、格式凌乱等现象。该文主要解决表格显示不全的问题。
解决方法:选中目标表格->右键->表格属性->表格->文字环绕,默认应该是环绕(A),需要选择无(N),然后再看看表格效果
PowerDesigner导出表到word
本文摘自:http://www.cnblogs.com/linjiqin/archive/2011/07/15/2107474.html,感谢作者的分享。
PowerDesigner导出表到word
一、模版修改
在导出表时,powerdesigner默认为 ...