- 浏览: 2473254 次
- 性别:
- 来自: 北京
最新评论
-
masuweng:
你好, 根据机器码计算注册码的代码是在哪个包下的哪个类了.
APDPlat中的机器码生成机制 -
masuweng:
我的那个项目跑起来为什么503了
APDPlat中的机器码生成机制 -
masuweng:
APDPlat中的机器码生成机制 -
liutaochn:
可以用,thanks
Cygwin运行nutch报错:Failed to set permissions of path -
qbuer:
The Google Web Search API is no ...
使用Java调用谷歌搜索
文章列表
昨晚和朋友聊天,喝了点咖啡,由于我经常喝茶,很长时间没喝咖啡了,所以失眠了,于是起床读JVM规范,读完后在朋友圈发了一条信息:
JVM Run-Time Data Areas:The Java Virtual Machine defines various run-time data areas that are used during exec ...
实现代码如下:
import java.util.LinkedHashMap;
import java.util.Map;
/**
* LRU (Least Recently Used) 算法的Java实现
* @param <K>
* @param <V>
* @author 杨尚川
*/
public class LRUCache<K, V> extends LinkedHashMap<K, V> {
//缓存大小
private int cacheSize;
public L ...
superword
BBC:http://www.bbc.co.uk/learningenglish/ BBC课程下载(百度网盘) BBC ON YOUTUBE
VOA:http://learningenglish.voanews.com/ VOA ON YOUTUBE
11个老师,几百个小时覆盖初中高级的免费英语学习视频:http://www.engvid.com/english-lessons/
When two words are confused for one another the results can sometimes be comical, for example when affluent is confused with effluent or desert with dessert.
On other occasions mix-ups between commonly confused words can result in a situation that isn't so funny, for example when two words with alm ...
1、Collins
http://www.collinsdictionary.com/
2、Merriam-Webster
http://www.wordcentral.com/
http://www.merriam-webster.com/
3、Oxford
1、edx
https://www.edx.org/
2、sliderule
https://www.mysliderule.com/
3、openlearn
http://www.open.edu/openlearn/
当我们在Collins词典中输入“voilent”的时候,会有如下提示:
当我们在Google中搜索“voilent”的时候,也会有如下提示:
Collins和Google是如何做到的呢?它是怎么知道我们把i和o的位置弄反了呢?
当我们输入一个词,而这个 ...
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词
本文使用的英语单词囊括了几乎所有的考纲词汇共18123词:
/**
* 考纲词汇
* @return
*/
public static Set<Word> getSyllabusVocabulary(){
return get("/word_pr ...
实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测
运行结果:
检查的博文数:128
1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 Jaccard=0.859838 JaroDistance=0.824469 JaroWinklerDistance=0.894682 SørensenDiceCoefficient=0.92463 ...
1、ACL Anthology
A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing
旧版:http://aclweb.org/anthology/
新版:http://aclanthology.info/
2、ACL Anthology Network
http://clair.eecs.umich.edu/aan/index.php
3、ACL Wiki
Java8内置了强大的多核支持,我们在处理数据的时候,如果不充分利用多核,都好不意思跟老板打招呼。
我们经常会使用AtomicInteger来做计数器,如下所示:
List<String> words = Files.readAllLines(Paths.get("src/main/resources/dic.txt&qu ...
我们如何通过计算词的语境来获得相关词呢?
语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。
相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关。
算法 ...
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能
命令行脚本的调用方法如下:
将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运行结束后打开文件statistics-result.txt查看词频统计结果
在程序中的调用方法如下:
//词频统计设置
WordFrequencyStatistics wordFreque ...
word分词提供了多种文本相似度计算方式:
方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度
实现类:org.apdplat.word.analysis.CosineTextSimilarity
用法如下:
String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new CosineTextSimilarity();
double score1pk1 = ...
jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。
jsearch的索引文件结构定义如下:
1、一个词的索引由=分割的三部分组成: 第一部分是词 第二部分是这个 ...