"阿里Hadoop集群架构及服务体系"分享总结

博客分类：

分享汇总

概述：此分享是关于阿里Hadoop集群架构及服务体系的分享汇总汇总点：集群按需申请，分组管理，同时计费；集群数据共享(原始表/中间表/元数据)，避免重复计算和存储成立阿里巴巴数据交换中心；集群共享(生产\开发\测试\预发)，避免数据在不同集群间拖动；涉及生态系统包括：Hive，Streaming，Mahout，Pig和HBase；资源调度改造：增加JobLevel概念，支持异构操作系统调度和服务端控制Reduce启动时机；动态调整slots配置；增加密码认证；权限扩展UGO权限即：user group other; NameNode改进：RP ...

2013-06-24 11:54
浏览 2316
评论(0)
分类:行业应用

linux使用rarlinux去操作rar格式的文件

博客分类：

Linux

概述: RAR是一种专利文件格式，用于数据压缩与归档打包，开发者尤金·罗谢尔（Eugene Roshal），所以RAR的全名是：Roshal ARchive。首个公开版本RAR 1.3发布于1993年。背景：一般我们会把文件压缩成zip格式，然后通过unzip去操作，但是有时候格式是rar那么我们需要单独去做处理，这样就需要利用linux rar工具解决方式：下载rar工具(解压，如下载那么只需要安装即可)： wget http://www.rarlab.com/rar/rarlinux-3.8.0.tar.gz 安装： make make install 使用： ...

2013-06-24 10:38
浏览 1332
评论(2)
分类:操作系统

"下一代推荐引擎的关键技术和应用案例"分享总结

博客分类：

分享汇总

概述：此分享是关于下一代推荐引擎的关键技术和应用案例的分享汇总分享点: 推荐引擎 vs. 搜索引擎==众里寻她千百度 – 灯火阑珊处 vs 见或是不见，她就在那里 – 缘起缘散；当前推荐引擎的问题和挑战：稀疏性；冷启动；可扩展性；可移植性；鲁棒性；可解释性和多样性；推荐引擎发展方向：系统推荐到社会推荐；静态算法到动态增量算法到自适应算法；脆弱算法到健壮算法和单一数据源到交叉融合数据平台；综合评价指标-三个维度：Accuracy，Diversity and Novelty；交叉融合推荐包括数据源融合，算法点：基于内容；协同过滤；兴趣扩散； ...

2013-06-21 18:48
浏览 1488
评论(0)
分类:行业应用

"阿里研究中心：大数据时代"分享总结

博客分类：

分享汇总

概述：此分享是关于阿里研究中心：大数据时代的分享汇总分享点：大数据4V：大量（Volume）；多样（Variety）；快速（Velocity）和价值（Value）数据是资产，云为数据资产提供存储、访问和计算数据来源：互联网企业：SNS、微博、视频网站、电子商务网站物联网、移动设备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等金融行业大数据对信息化影响：传统软件开发流程敏捷开发（快速演进）企业信息化不只是订单系统上线，订单处理也需自动化跟上通 ...

2013-06-20 17:07
浏览 1423
评论(0)
分类:行业应用

"网易分布式数据库平台"分享总结

概述：此分享是关于网易分布式数据库平台的分享汇总汇总点：基于关系数据库集群解决结构化数据的海量存储和高效访问；面向关系模型和OLTP；基于Sharding的Scale Out； Sharding实现方式：均衡字段：用来定位记录所在DBN的表字段；均衡策略：均衡函数、桶、存储映射表；表 --> 均衡策略：多对一；查询处理时尽量采用流（游标）的方式处理中间结果；基于MySQL的缓存；用户权限管理采用DDB认证+DBN(RDBMS)认证全局ID分配有两种方式：中心节点批量分配ID和基于时间戳的分布式ID分配图解：开源技术： DBI Mysql ...

2013-06-20 09:46
浏览 1314
评论(0)
分类:行业应用

"MySQL新技术探索与实践"分享总结

博客分类：

分享汇总
DB

概述：此分享是关于MySQL新技术探索与实践的分享汇总汇总点： MySQL分支：MariaDB、Drizzle 新技术：Memcached ；以Flashcache为代表的二级缓存架构；以Fusion-IO为代表的PCI-E SSD等使用ICC编译Mysql，目的是引入三方Patch或修改源码� ...

2013-06-19 11:39
浏览 2273
评论(0)
分类:行业应用

Spring 注解MVC框架搭建

博客分类：

J2ee

基于Spring的注解mvc框架搭建实现包括如下步骤： 1.引入相应的jar <dependency> <groupId>org.springframework</groupId> <artifactId>spring-web</artifactId> <version>3.1.0.RELEASE</version> </dependency> <dependency> <groupId>org.springframework</groupId& ...

2013-06-14 19:01
浏览 1673
评论(0)
分类:编程语言

"Tag-TextRank：一种基于Tag的网页关键词抽取方法"分享总结

博客分类：

分享汇总

概述：该方法在TextRank基础上，通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度，最后将不同Tag下的词项权重计算结果进行融合. 主要贡献: (1) 在一个大规模的Tag数据集上抽样分析了用户标注Tag的行为，发现Tag数据的关联特征。 (2) 提出利用Tag 的关联文档信息来进行关键词抽取的框架，并给出一种实现方法Tag-TextRank。实验结果表明，Tag作为一种弱的指导信息，可以显著提高关键词抽取的精度。 Tag-TextRank算法的步骤： 1.根据要抽取的文档d中词的相邻关系，构建词项图G 2.对于d上的每一个Tag ...

2013-06-14 18:54
浏览 1896
评论(0)
分类:行业应用

Spring之@PathVariable和@RequestParam

博客分类：

J2ee

利用Spring注解MVC的时候我们发现有两个注解@PathVariable和@RequestParam 举例如下： http://localhost:8080/api/show/id?id=22 在restful格式中我们采用 http://localhost:8080/api/show/{id}?id=22 这样path上的参数我们就可以通过@PathVariable获取，而参数上的值可以通过@RequestParam获取针对其具体的属性我们查看源码： public @interface PathVariable { /** The URI template var ...

2013-06-13 17:26
浏览 5040
评论(0)
分类:编程语言

"百度推荐引擎实践：策略篇"分享总结

博客分类：

分享汇总

概述：此分享是关于百度推荐引擎实践：策略篇简介汇总点： 1.搜索与推荐是被动和主动的关系； 2.推荐系统成熟的原因是用户行为数据的日益完善； 3.推荐系统的前景如：个性化营销，个性化广告； 4.推荐系统在百度的应用包括但不限于：百度知道，首页导航，贴吧相关推荐，百度音乐等； 5.百度推荐系统技术包括但不限于：数据仓库，算法平台，流计算； 6.数据充足，简单算法性能可以很好；数据缺失，任何算法也不可能有好的性能； 7.不仅要吸引用户户提供反馈，而且要吸引用户提供准确反馈； 8.“通用系统平台+归一化数据+算法”+“垂直策略设计” 9.知识点包括但不限于：关联定义，数 ...

2013-06-09 12:43
浏览 1640
评论(0)
分类:行业应用

"淘宝推荐系统简介"分享总结

博客分类：

分享汇总

概述：此分享是关于淘宝推荐系统简介汇总点： 1.推荐引擎就是：如何找到用户感兴趣的东西和以什么形式告诉用户； 2.推荐引擎的作用：提高用户忠诚度，提高成交转化率和提高网站交叉销售能力； 3.推荐系统核心：产品，系统和算法； 4.推荐系统产品形式：邮件营销，群体信息披露，趋势引导，评论、资讯推荐和相关商品、店铺、达人推荐； 5.推荐系统系统组成：数据，算法，消息系统，Search engine，NoSQL，分布式计算和效果评测； 6.算法包括离线：用户类目偏好、用户购买力分析、关联性分析和在线：排序、过滤、增量计算 7.分布式计算包括：大规模数据统计，运算和大数据集合的E ...

2013-06-09 11:23
浏览 4201
评论(0)
分类:行业应用

"Namenode瓶颈解决方案"分享总结

博客分类：

分享汇总

概述：此分享是关于Namenode中Blocksmap太大等引起的瓶颈问题解决方案技术点： 1.用行级锁缩小Namespace锁粒度 2.用Cache + FusionIO解决吃内存的问题 3.持久化Blockmap, 加速重启过程 4.无状态化Namenode, 支持热部署 5.简单主备策略保证可靠性详情参见附件

2013-06-08 18:27
浏览 1636
评论(0)
分类:行业应用

"Hadoop/MapReduce/HBase"分享总结

博客分类：

分享汇总

概述：此分享是关于hadoop生态系统的简单介绍包括起源到相对应用技术点： 1.hadoop核心包括Common，HDFS和MapReduce； 2.Pig，Hbase，Hive，Zookeeper； 3.Hadoop日志分析工具Chukwa； 4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境； 5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化 7.HDFS可靠性措施：NameNode备份，多数 ...

2013-06-08 17:37
浏览 1912
评论(0)
分类:行业应用

"淘宝Java版的存储和搜索介绍"分享总结

博客分类：

分享汇总

概述：此分享是关于淘宝数据存储和检索想过技术点的分享技术点： 1.基于Hbase进行数据存储 2.Hbase没有二级索引的解决方案是采用合理的rowkey，同时充分利用HBase存储的三维有序，如： rowKey：userId column: 索引条件 version: 订单ID 3.join在server端处理，利用cache进行分页操作； 4.适当采用冗余表 5.基于Solr进行垂直检索 6.基于zookeeper进行配置中心化总结： 1.同时充分利用HBase存储的三维有序； 2.基于Solr进行垂直检索； 3.基于zookeeper进行配置中 ...

2013-06-07 17:01
浏览 1082
评论(0)
分类:行业应用

利用Spring的mock对控制层进行单元测试

博客分类：

J2ee

大环境概述： java -version java version "1.6.0_21" Java(TM) SE Runtime Environment (build 1.6.0_21-b06) Java HotSpot(TM) Client VM (build 17.0-b16, mixed mode, sharing) spring的版本：3.1.0.RELEASE spring-mock的版本：1.2.6 采用Spring 注解mvc 控制层： @Controller @RequestMapping("/case") publ ...

2013-06-07 16:50
浏览 1664
评论(2)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

"阿里Hadoop集群架构及服务体系"分享总结

linux使用rarlinux去操作rar格式的文件

"下一代推荐引擎的关键技术和应用案例"分享总结

"阿里研究中心：大数据时代"分享总结

"网易分布式数据库平台"分享总结

"MySQL新技术探索与实践"分享总结

Spring 注解MVC框架搭建

"Tag-TextRank：一种基于Tag的网页关键词抽取方法"分享总结

Spring之@PathVariable和@RequestParam

"百度推荐引擎实践：策略篇"分享总结

"淘宝推荐系统简介"分享总结

"Namenode瓶颈解决方案"分享总结

"Hadoop/MapReduce/HBase"分享总结

"淘宝Java版的存储和搜索介绍"分享总结

利用Spring的mock对控制层进行单元测试

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>