`
小网客
  • 浏览: 1249313 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
概述: 自动文摘技术的目标是致力于将信息全面、简洁的文档直接呈现给用户。他的定义为:把一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别 。 文摘的分类: 依据文摘的功能(用途) ...
hadoop版本: $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41 ...
Hadoop版本: $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41 ...
概述: 传统计算相似度是基于语法计算其距离或者计算其Jaccard系数,这样存在一问题:如妈妈和母亲这两个是非常相似的,但是按照这种方式计算是不相似的。 另外还有高级教师和副教授其实也是相关的,因此本文正是为了解决上述问题。 知识点: 1.基于语法计算概念的名称相似度 2.基于实例计算概念相似 3.基于属性语法实例计算概念相似度 4.基于关系计算概念相似度 5.合并上述计算结果 图解:  总结: 构建本体延伸知识库   详情参见附件  
Collection和Map都有相应的clear操作,但是StringBuffer和StringBuilder没有,那么如何复用呢? 观察api我们知道有两种方式: StringBuffer sb=new StringBuffer(); sb.setLength(0); sb.delete(0, sb.length()); 我们观察下他们的区别: 他们的实现都是在AbstractStringBuilder里进行的,详情如下: setLength: public void setLength(int newLength) { if (newLength < 0) ...
概述: 此分享是关于"系统稳定性及性能优化",强调稳定架构,容量规划,运行监控和弱依赖。 技术点: 系统可被监控; 系统可被调试; 系统可被容错; 有相应的运维系统; 发布回归操作;  图解:  总结: 稳定的系统架构; 系统的容量规划; 系统的运行时监控; 系统的依赖和降级;  详情参见附件
概述: 此分享是关于"淘宝海量图片存储与CDN系统"的总体架构。 技术点: 1.图片多级缓存server 2.tfs存储图片小文件 3.基于GraphicsMagick处理图片 4.LVS 5.nginx 6.Haproxy 7.缓存文件基于内存hash做索引 8.squid 9.图片请求处理流程: –若请求图片在Cache中,直接发送 –没命中,若本地有原图,则根据原图做处理并缓存 –没命中,从TFS读取原图并添加到缓存,处理并缓存 10.图片处理与缓存编写成基于Nginx的模块 图解: 图片架构图:   CDN总体图:   ...
Hadoop执行Job时因超时自动kill,信息如下: Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing! 原因: 1.执行MR的时间过长,超过了mapred.task.timeout中设置的值 2.MR执行中因业务比较复杂,没有report status从而使得master感觉不到此task的存在而kill 解决方案: 方案1修改mapred-site.xml: <property> <name>m ...
汇总如下: 1.情景分为:运算情景,用户情景和实体情景; 2.运算情景为具体的硬件,网络设备;用户情景为用户的偏好行为以及个人档案;实体情景为具体的环境,温度湿度等; 3.模糊理论也就是最终获取一个概率值,而不是传统的是否二分法; 4.集合A和集合B,那么A和B的匹配度为(A交B/A并B); 5.对中文文章的文本处理包括:切词,词语重组,词过滤,同意转换和构建关键词; 6.词重组具体:"中华人民共和国"切词为“中华”和“人民共和国”那么进行重组为“中华人民共和国”; 7.同意转换为“中华人民共和国”等同于"中国"; 8.构建关键词为计算t ...
概念: 1.架构 2.框架 3.设计模式 总结: 1.架构,框架和设计模式互不等同; 2.框架不是可用的系统,不是工具类,而是为了某种需求而生成的软件半成品; 3.架构确定了系统的层次结构,不同部分的协作; 4.框架比架构更偏技术,而架构是可用基于框架; 5.设计模式是一个设计问题的解决方式; 6.框架给出的是具体的应用,而设计模式给出的单一的应用设计思路; 7.设计模式是一个概念,而框架是一个具体的实现; 8.架构基于框架实现,基于设计模式进行设计。 举例: 1.MVC为设计模式,而strutsX和spring为其实现为一个框架 2.基于spring mvc的 ...
AD系统的演进: 条幅AD 搜索AD 定向AD   AD系统需要的技术: 高性能Web服务器 关系数据库,内存KV数据库, NoSQL (BigTable) 搜索引擎 排序算法(Ranking) 实时计算 海量日志收集和处理(MapReduce, 报表和结算) RPC,消息中间件 客户端技术:浏览器,Javascript   多个子系统都采用Java实现: 直通车AD主系统 后台CRM系统,审核系统 数据同步系统 操作日志系统 消息通知系统 报表系统   开源Java框架和工具: Spring, Struts 2, iBatis, JSP, L ...
背景: 进行文本挖掘的时候,无论是聚类还是相似计算首先需要向量化。 思路: 对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表,那么构造成向量记做: v=(a1,a2,…,an) 此为为n维向量。a1...an为tf(tf-idf),同时我们把word转换成int来作为下标。 实现: /** * vector转换 * * @param map 单词和词频map * @param otherInfo 用于保存的其他信息 * @return Vector */ public static Vecto ...
RMS值实际就是方均根值,就是一组统计数据的平方和的平均值的平方根。 RMSE为均方根误差,标示实际值与预测值之间的误差。公式如下:   MAE为平均绝对误差   其中X(is)为x(i)的实际值,X(i)为预测值
进行memcached 状态的监控需要使用stats命令,概述如下: STAT pid 10937 #服务器进程的进程号 STAT uptime 3120815 #服务器自运行以来的秒数 STAT time 1369216979 #当前服务器上的UNIX时间 STAT version 1.4.13 #服务器的版本字符串 STAT libevent ...
总结如下: 1.中国式体验的现状:混乱,抄袭和模仿; 2.造成中国式体验的现状的原因:不思考+投机; 3.不思考包括:恐慌心理和从众心理; 4.投机包括:侥幸心理和功利心理; 5.入门靠偶遇,实践靠耐心,提高靠悟性和获奖靠概念; 6.用户深理解,设计点创新和技术强突破; 7.用户行为,用户洞察,市场机会,产品机会和设计建议; 8.找到关键点; 9.设计战略,设计分析,设计机会,设计灵感和设计创新; 10.洞察力,学习力,沟通力和领导力;   详情参见附件:
Global site tag (gtag.js) - Google Analytics