最新文章列表

利用word分词提供的文本相似度算法来辅助记忆英语单词

本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词 本文使用的英语单词囊括了几乎所有的考纲词汇共18123词: /** * 考纲词汇 * ...
yangshangchuan 评论(0) 有6331人浏览 2015-06-03 19:15

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测 运行结果: 检查的博文数:128 1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 ...
yangshangchuan 评论(0) 有8897人浏览 2015-06-01 16:25

实现JDK没有提供的AtomicFloat

Java8内置了强大的多核支持,我们在处理数据的时候,如果不充分利用多核,都好不意思跟老板打招呼。 我们经常会使用AtomicInteger来做计数器,如下 ...
yangshangchuan 评论(1) 有9026人浏览 2015-05-22 04:34

利用word分词通过计算词的语境来获得相关词

我们如何通过计算词的语境来获得相关词呢?   语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。 相关词的定义是: ...
yangshangchuan 评论(0) 有5783人浏览 2015-05-21 18:32

利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics​ 类提供了词频统计的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件:text.txt chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt 程序运 ...
yangshangchuan 评论(0) 有4371人浏览 2015-05-21 13:28

利用word分词来计算文本相似度

word分词提供了多种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimilarity 用法如下: String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 = ...
yangshangchuan 评论(1) 有58408人浏览 2015-05-20 06:39

如何利用多核提升分词速度

在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 ...
yangshangchuan 评论(0) 有5108人浏览 2015-05-12 23:45

中文分词算法 之 基于词典的全切分算法

  在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2 ...
yangshangchuan 评论(0) 有8663人浏览 2015-05-09 19:07

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 ​ 一丘之貉 比众不同 一丝不苟 草草了事 粗心 ...
yangshangchuan 评论(0) 有5415人浏览 2015-05-06 15:00

一种利用ngram模型来消除歧义的中文分词方法

这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。 消除歧义的目的就是从切分结果中挑选切分正确的。 假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:
yangshangchuan 评论(0) 有7703人浏览 2015-05-06 04:44

一种基于词性序列的人名识别方法

在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢? 下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词: 人名识别:[我, 爱, 杨, 尚, 川] 识别到人名:爱杨尚 识别到人名:杨尚川 识别到人名:尚川 开始从多个识别 ...
yangshangchuan 评论(0) 有6643人浏览 2015-05-05 20:20

怎样把pdf转换成word-多语言ocr支持

http://jingyan.baidu.com/article/86fae34699bb4e3c49121a23.html   PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WORD格式的方法。▲下面的六款软件中,前三个适用于普通的 ...
cuiyadll 评论(0) 有961人浏览 2015-05-04 14:08

中文分词之11946组同义词

这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一下子 一会儿 一忽儿 转瞬 须臾 一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟 一丝一毫 一点一滴 一丝不挂 寸丝不挂 袒裼裸裎 赤身露体 一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微 一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到 一举 ...
yangshangchuan 评论(0) 有5328人浏览 2015-04-30 21:17

java将excel转换为HTML

1.Maven工程中主要添加的依赖   <!--处理excel、word--> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> &l ...
zilongzilong 评论(0) 有7791人浏览 2015-04-08 11:19

SOLR4.2+NUTCH1.6

1、SOLR4.2集成NUTCH1.6 wget  http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar  -xzvf  solr-4.2.0.tgz  cd  solr-4.2.0/example  复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...
yangshangchuan 评论(0) 有3531人浏览 2015-04-08 06:21

Word符号,教你怎么在方框里打钩?

简介 有时我们在Word中制作一份特殊的表格时,可能会用到这样一些特殊符号,“在方框里打钩”或打叉。这些符号虽看起来简单不起眼,也许随处可见,但是该自己动手做起来的时候就觉得无从下手,摸不着头脑了。这里Word联盟针对本文方框里打钩的两种不同实现方法,来为大家做个简单教程,可以让各位网友以后遇见需求时,可以及时的对应。在方框里打钩的第一种方法:利用带圈数字来实现。方法如下。 ...
110shen110 评论(0) 有701人浏览 2015-03-09 18:51

word复制粘贴导致表格显示不全解决方案

相信大家在做需求分析以及其他日常工作中都会用到word,并且经常会在几份word相互复制粘贴,粘贴过来的表格有时候就出现显示不全、格式凌乱等现象。该文主要解决表格显示不全的问题。 解决方法:选中目标表格->右键->表格属性->表格->文字环绕,默认应该是环绕(A),需要选择无(N),然后再看看表格效果
110shen110 评论(0) 有7802人浏览 2015-02-26 15:10

PowerDesigner导出表到word

本文摘自:http://www.cnblogs.com/linjiqin/archive/2011/07/15/2107474.html,感谢作者的分享。 PowerDesigner导出表到word 一、模版修改 在导出表时,powerdesigner默认为 ...
xingyx 评论(0) 有2524人浏览 2014-12-18 11:33

word2003样式编辑中的一些设置技巧

       前段时间需要编辑报告,所以有很多的样式进行约束,由于平时用的不多,基本都忘掉了,这次在编辑的过程遇到了一些问题,所以记载下来 ...
lovekaiyuan 评论(0) 有573人浏览 2014-11-27 19:18

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics