`
文章列表
superword是一个Java实现的英文单词分析和辅助阅读开源项目,主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律和辅助阅读等等。支持最权威的2部中文词典和9部英文词典,支持23种分级词汇,囊括了所有的英语考试,还专门针对程序员提供了249本最热门的技术书籍的辅助阅读功能。superword在线访问地址:http://123.56.99.179       
    你英语四级过了吗?功夫熊猫2看了吗?去除停用词后,功夫熊猫2使用了816个英语单词,你会说很简单吧,别急,我给你分析一下,这些单词中有125个单词不在四级词汇范围内,花两分钟时间看看你是否认识这些单词,单词后面跟的数字表示该单词在电影中出现的次数。     你也可以获取本文的分析程序,这样你就可以分析其他电影了。看一部电影之前,先通过这种方式分析一下,然后学习自己不认识的单词,然后再去看电影,如此这样坚持下去,英语水平就会有很大的提升。 words don't occur in specified set: (125) 1 shen [31] guys [23] ...
“这真真是极好的”该怎么翻译成英文,有多少种翻译方法呢? “真”在这里是副词,表示“完全确实,毫无疑问”,用了两个真就是在使用堆叠效果,类似200%的用法,重点是“极好的”,英文中有多少个词可以用来表示“极好的”呢? 我在这里列出了31个,虽然他们各自有些微妙的区别,但是都可以用来表达“极好的”这个含义。 所以最终翻译为:“That's excellent. ”,excellent可以替换为下面31个词中的任何一个。 1. excellent: Something that is excellent is very good indeed. 2. marvellous: If you ...
    你英语四级过了吗?功夫熊猫看了吗?去除停用词后,功夫熊猫使用了800个英语单词,你会说很简单吧,别急,我给你分析一下,这些单词中有151个单词不在四级词汇范围内,花两分钟时间看看你是否认识这些单词,单词后面跟的数字表示该单词在电影中出现的次数。     你也可以获取本文的分析程序,这样你就可以分析其他电影了。看一部电影之前,先通过这种方式分析一下,然后学习自己不认识的单词,然后再去看电影,如此这样坚持下去,英语水平就会有很大的提升。 words don't occur in specified set: (151) 1 warrior [49] shifu [30] ...
巴比伦塔的失败说明了语言不通导致的沟通不畅会严重影响生产力,然而我们又无法统一语言,所以机器翻译是一个重要的研究领域。   人类的语言是如此繁杂不规范,尽管有语法,但是几乎处处有例外。   我们在书面和口头交流的时候很难把全部的语义用语言表达出来,语言只是表达了一小部分,而且这部分还可能会有歧义甚至残缺不全,剩下的部分我们需要通过情景经验常识来识别。   接收到信息之后,我们根据接收到的信息结合自己的理解生成一个假说,然后跟对方互动,利用对方的反馈来验证假说是否成立,这种生成假说验证假说的原理就是IBM WATSON的核心思想:https://github.com/ysc/Que ...
BBC Learning English在线3大系列课程:Lower intermediate、Intermediate、English My Way 声音很悦耳,尤其是Jamaica Inn和The Importance of Being Earnest,堪称完美,百听不厌,这对于英语兴趣的培养和英语能力的提升非常有帮助。到目前为止,这些课程的mp3和pdf文件已经有2859个,而且还在持续增长中,如果能写个程序自动地把这些文件下载下来就好了,要是手工一个个下载,那得累死吧,尤其是对那些还从来没有学过这个课程的人。 下载下来后将文件拷贝到手机上,在挤地铁挤公交的时候戴着耳机听一听,充分利 ...
当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站:http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览器中,就像真正的用户在操作一样。 使用Selenium,我们不但可以抓取Js动态生成数据的网页,而且可以抓取以滚动页面方式分页的网页。 首先,我们使用maven引入Selenium依赖: < ...
iSearch4性能优化之路.pptx iSearch5商品搜索特色功能.pptx iSearch5实现原理之实时搜索.pptx isearch5性能优化.pptx
内容提要 QuestionAnsweringSystem是一个Java实现的人机问答系统,能够自动分析问题并给出候选答案。IBM人工智能计算机系统"沃森"(Watson)在2011年2月美国热门的电视智力问答节目"危险边缘"(Jeopardy!)中战胜了两位人类冠军选手,QuestionAnsweringSystem就是IBM Watson的Java开源实现。本文从系统架构、主要数据结构、关键技术及代码实现四个方面对该系统的技术实现进行简要分析。 阅读全文    
100offer举办的「寻找实干和坚持的技术力量」Side Project赞助活动经过12天的作品征集及7天的评审与投票,最佳作品奖、优秀作品奖、最具人气奖现已出炉,结果公布地址:http://i.100offer.com/projects/result。值得一提的是,本次赞助活动共有270个开源项目参与,最终确定的有效投票数为34176,100offer特此向Wikipedia捐款34176元。为100offer切切实实地支持开源项目喝彩! QuestionAnsweringSystem是一个Java实现的人机问答系统,能够自动分析问题并给出候选答案。IBM人工智能计算机系统" ...
由于100offer举办的「寻找实干和坚持的技术力量」开源项目投票活动没有按照票数排序的功能,所以本文写了个小程序来实现这个功能,代码如下: import org.jsoup.Jsoup; import org.jsoup.nodes.Element; import java.net.URL; import java.util.HashMap; import java.util.Map; import java.util.concurrent.atomic.AtomicInteger; /** * 投票排名分析工具 * @author 杨尚川 */ publ ...
鉴于Ganglia官方没有提供很好的入门文档,所以,本文给出一个基于CentOS 6.6快速搭建Ganglia监控系统的入门指南,如果需要进一步深入Ganglia,可看Ganglia专著《Monitoring with Ganglia》以及Ganglia官网。 1、sudo yum install ganglia ganglia-gmetad ganglia-gmond ganglia-web 2、sudo vi /etc/ganglia/gmond.conf 仅需修改name的值即可: cluster { name = "bigdata" owner =  ...
我们在上文 如何选择使用字符串还是数字呢? 中阐述了使用数值类型的好处,那么问题来了,如何在数值类型与字节数组之间相互转换呢? 我们先看看单个数值类型和字节数组之间的转换,我们以Integer类型为例: public static byte[] intToBytes(int x) { ByteBuffer intBuffer = ByteBuffer.allocate(Integer.BYTES); intBuffer.putInt(0, x); return intBuffer.array(); } public static int bytesTo ...
  在我多年的开发经验中,经常发现的一个情况就是,很多项目的对象字段或者是数据库字段本来是数字类型的,却被定义成字符串类型,这无关痛痒吗? 对于小项目来说,可能没什么影响,反正只要业务逻辑正确即可,性 ...
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。 word1.3新增了大量功能,如:词频统 ...
Global site tag (gtag.js) - Google Analytics