"自动文摘"分享总结

博客分类：

分享汇总

概述：自动文摘技术的目标是致力于将信息全面、简洁的文档直接呈现给用户。他的定义为：把一份文献内容的缩短的精确的表达而无须补充解释或评论，且对写文摘的人来说没有差别。文摘的分类：依据文摘的功能(用途) ...

2013-06-06 17:43
浏览 1878
评论(0)
分类:行业应用

Hadoop mapreduce单元测试工具MRUnit简单使用

博客分类：

MapReduce

hadoop版本： $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41 ...

2013-06-06 15:26
浏览 1905
评论(0)
分类:开源软件

Hadoop的文件输入输出Format的几个separator属性参数

博客分类：

MapReduce

Hadoop版本： $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41 ...

2013-06-05 16:12
浏览 1305
评论(0)
分类:开源软件

"本体映射中概念相似度计算的改进"分享总结

博客分类：

分享汇总

概述：传统计算相似度是基于语法计算其距离或者计算其Jaccard系数，这样存在一问题：如妈妈和母亲这两个是非常相似的，但是按照这种方式计算是不相似的。另外还有高级教师和副教授其实也是相关的，因此本文正是为了解决上述问题。知识点： 1.基于语法计算概念的名称相似度 2.基于实例计算概念相似 3.基于属性语法实例计算概念相似度 4.基于关系计算概念相似度 5.合并上述计算结果图解：总结：构建本体延伸知识库详情参见附件

2013-06-04 17:52
浏览 1391
评论(0)
分类:行业应用

StringBuffer和StringBuilder的清空操作

博客分类：

Java

Collection和Map都有相应的clear操作，但是StringBuffer和StringBuilder没有，那么如何复用呢？观察api我们知道有两种方式： StringBuffer sb=new StringBuffer(); sb.setLength(0); sb.delete(0, sb.length()); 我们观察下他们的区别：他们的实现都是在AbstractStringBuilder里进行的，详情如下： setLength： public void setLength(int newLength) { if (newLength < 0) ...

2013-06-04 10:15
浏览 2317
评论(0)
分类:编程语言

"系统稳定性及性能优化"分享总结

博客分类：

分享汇总

概述：此分享是关于"系统稳定性及性能优化"，强调稳定架构，容量规划，运行监控和弱依赖。技术点：系统可被监控；系统可被调试；系统可被容错；有相应的运维系统；发布回归操作；图解：总结：稳定的系统架构；系统的容量规划；系统的运行时监控；系统的依赖和降级；详情参见附件

2013-05-31 15:03
浏览 1438
评论(0)
分类:行业应用

"淘宝海量图片存储与CDN系统"分享总结

博客分类：

分享汇总

概述：此分享是关于"淘宝海量图片存储与CDN系统"的总体架构。技术点： 1.图片多级缓存server 2.tfs存储图片小文件 3.基于GraphicsMagick处理图片 4.LVS 5.nginx 6.Haproxy 7.缓存文件基于内存hash做索引 8.squid 9.图片请求处理流程： –若请求图片在Cache中，直接发送 –没命中，若本地有原图，则根据原图做处理并缓存 –没命中，从TFS读取原图并添加到缓存，处理并缓存 10.图片处理与缓存编写成基于Nginx的模块图解：图片架构图： CDN总体图： ...

2013-05-30 17:02
浏览 3317
评论(2)
分类:行业应用

Hadoop执行Job时因超时自动kill原因及解决方案

博客分类：

MapReduce

Hadoop执行Job时因超时自动kill，信息如下： Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing! 原因： 1.执行MR的时间过长，超过了mapred.task.timeout中设置的值 2.MR执行中因业务比较复杂，没有report status从而使得master感觉不到此task的存在而kill 解决方案：方案1修改mapred-site.xml： <property> <name>m ...

2013-05-30 14:56
浏览 5301
评论(0)
分类:开源软件

"基于情境感知及糢糊理论的智慧型推荐系统"分享汇总

博客分类：

分享汇总

汇总如下： 1.情景分为：运算情景，用户情景和实体情景； 2.运算情景为具体的硬件，网络设备；用户情景为用户的偏好行为以及个人档案；实体情景为具体的环境，温度湿度等； 3.模糊理论也就是最终获取一个概率值，而不是传统的是否二分法； 4.集合A和集合B，那么A和B的匹配度为(A交B/A并B); 5.对中文文章的文本处理包括：切词，词语重组，词过滤，同意转换和构建关键词； 6.词重组具体："中华人民共和国"切词为“中华”和“人民共和国”那么进行重组为“中华人民共和国”; 7.同意转换为“中华人民共和国”等同于"中国"； 8.构建关键词为计算t ...

2013-05-29 22:27
浏览 1613
评论(1)
分类:行业应用

"架构、框架"分享总结

博客分类：

分享汇总

概念： 1.架构 2.框架 3.设计模式总结： 1.架构，框架和设计模式互不等同； 2.框架不是可用的系统，不是工具类，而是为了某种需求而生成的软件半成品； 3.架构确定了系统的层次结构，不同部分的协作； 4.框架比架构更偏技术，而架构是可用基于框架； 5.设计模式是一个设计问题的解决方式； 6.框架给出的是具体的应用，而设计模式给出的单一的应用设计思路； 7.设计模式是一个概念，而框架是一个具体的实现； 8.架构基于框架实现，基于设计模式进行设计。举例： 1.MVC为设计模式，而strutsX和spring为其实现为一个框架 2.基于spring mvc的 ...

2013-05-29 21:09
浏览 1142
评论(0)
分类:行业应用

"Java在淘宝AD系统中的应用"分享汇总

博客分类：

分享汇总

AD系统的演进：条幅AD 搜索AD 定向AD AD系统需要的技术：高性能Web服务器关系数据库，内存KV数据库, NoSQL (BigTable) 搜索引擎排序算法（Ranking）实时计算海量日志收集和处理（MapReduce, 报表和结算） RPC，消息中间件客户端技术：浏览器，Javascript 多个子系统都采用Java实现：直通车AD主系统后台CRM系统，审核系统数据同步系统操作日志系统消息通知系统报表系统开源Java框架和工具： Spring, Struts 2, iBatis, JSP, L ...

2013-05-23 19:06
浏览 2115
评论(1)
分类:行业应用

Mahout之文本向量化

博客分类：

mahout
DataMining

背景：进行文本挖掘的时候，无论是聚类还是相似计算首先需要向量化。思路：对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表，那么构造成向量记做: v=（a1，a2，…，an）此为为n维向量。a1...an为tf(tf-idf)，同时我们把word转换成int来作为下标。实现： /** * vector转换 * * @param map 单词和词频map * @param otherInfo 用于保存的其他信息 * @return Vector */ public static Vecto ...

2013-05-23 16:43
浏览 1710
评论(0)
分类:开源软件

memcached 之stats命令

博客分类：

其他

进行memcached 状态的监控需要使用stats命令，概述如下： STAT pid 10937 #服务器进程的进程号 STAT uptime 3120815 #服务器自运行以来的秒数 STAT time 1369216979 #当前服务器上的UNIX时间 STAT version 1.4.13 #服务器的版本字符串 STAT libevent ...

2013-05-22 18:56
浏览 1447
评论(0)
分类:开源软件

“非常道之走出中国式体验的迷失”分享总结

博客分类：

分享汇总

总结如下： 1.中国式体验的现状：混乱，抄袭和模仿； 2.造成中国式体验的现状的原因：不思考+投机； 3.不思考包括：恐慌心理和从众心理； 4.投机包括：侥幸心理和功利心理； 5.入门靠偶遇，实践靠耐心，提高靠悟性和获奖靠概念； 6.用户深理解，设计点创新和技术强突破； 7.用户行为，用户洞察，市场机会，产品机会和设计建议； 8.找到关键点； 9.设计战略，设计分析，设计机会，设计灵感和设计创新； 10.洞察力，学习力，沟通力和领导力；详情参见附件：

2013-05-21 19:12
浏览 1194
评论(0)
分类:研发管理

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

"自动文摘"分享总结

Hadoop mapreduce单元测试工具MRUnit简单使用

Hadoop的文件输入输出Format的几个separator属性参数

"本体映射中概念相似度计算的改进"分享总结

StringBuffer和StringBuilder的清空操作

"系统稳定性及性能优化"分享总结

"淘宝海量图片存储与CDN系统"分享总结

Hadoop执行Job时因超时自动kill原因及解决方案

"基于情境感知及糢糊理论的智慧型推荐系统"分享汇总

"架构、框架"分享总结

"Java在淘宝AD系统中的应用"分享汇总

Mahout之文本向量化

推荐引擎中的RMS和RMSE

memcached 之stats命令

“非常道之走出中国式体验的迷失”分享总结

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>