`
小网客
  • 浏览: 1249355 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
概述: 此分享是关于阿里Hadoop集群架构及服务体系的分享汇总   汇总点: 集群按需申请,分组管理,同时计费; 集群数据共享(原始表/中间表/元数据),避免重复计算和存储成立阿里巴巴数据交换中心; 集群共享(生产\开发\测试\预发),避免数据在不同集群间拖动; 涉及生态系统包括:Hive,Streaming,Mahout,Pig和HBase; 资源调度改造:增加JobLevel概念,支持异构操作系统调度和服务端控制Reduce启动时机; 动态调整slots配置; 增加密码认证; 权限扩展UGO权限即:user group other; NameNode改进:RP ...
概述: RAR是一种专利文件格式,用于数据压缩与归档打包,开发者尤金·罗谢尔(Eugene Roshal),所以RAR的全名是:Roshal ARchive。首个公开版本RAR 1.3发布于1993年。 背景: 一般我们会把文件压缩成zip格式,然后通过unzip去操作,但是有时候格式是rar那么我们需要单独去做处理,这样就需要利用linux rar工具 解决方式: 下载rar工具(解压,如下载那么只需要安装即可): wget http://www.rarlab.com/rar/rarlinux-3.8.0.tar.gz 安装: make make install 使用: ...
概述: 此分享是关于下一代推荐引擎的关键技术和应用案例的分享汇总   分享点: 推荐引擎 vs. 搜索引擎==众里寻她千百度 – 灯火阑珊处 vs 见或是不见,她就在那里 – 缘起缘散; 当前推荐引擎的问题和挑战:稀疏性;冷启动;可扩展性;可移植性;鲁棒性;可解释性和多样性; 推荐引擎发展方向:系统推荐到社会推荐;静态算法到动态增量算法到自适应算法;脆弱算法到健壮算法和单一数据源到交叉融合数据平台; 综合评价指标-三个维度:Accuracy,Diversity and Novelty; 交叉融合推荐包括数据源融合,   算法点: 基于内容; 协同过滤; 兴趣扩散; ...
概述: 此分享是关于阿里研究中心:大数据时代的分享汇总   分享点: 大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value) 数据是资产,云为数据资产提供存储、访问和计算 数据来源: 互联网企业:SNS、微博、视频网站、电子商务网站 物联网、移动设备、终端中的商品、个人位置、传感器采集的数据 联通、移动、电信等通信和互联网运营商 天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等 金融行业 大数据对信息化影响: 传统软件开发流程敏捷开发(快速演进) 企业信息化不只是订单系统上线,订单处理也需自动化跟上 通 ...
概述: 此分享是关于网易分布式数据库平台的分享汇总 汇总点: 基于关系数据库集群解决结构化数据的海量存储和高效访问; 面向关系模型和OLTP; 基于Sharding的Scale Out; Sharding实现方式:均衡字段:用来定位记录所在DBN的表字段;均衡策略:均衡函数、桶、存储映射表;表 --> 均衡策略:多对一; 查询处理时尽量采用流(游标)的方式处理中间结果; 基于MySQL的缓存; 用户权限管理采用DDB认证+DBN(RDBMS)认证 全局ID分配有两种方式:中心节点批量分配ID和基于时间戳的分布式ID分配 图解:  开源技术: DBI Mysql ...
概述: 此分享是关于MySQL新技术探索与实践的分享汇总   汇总点: MySQL分支:MariaDB、Drizzle 新技术:Memcached ;以Flashcache为代表的二级缓存架构;以Fusion-IO为代表的PCI-E SSD等 使用ICC编译Mysql,目的是引入三方Patch或修改源码 ...
基于Spring的注解mvc框架搭建实现包括如下步骤: 1.引入相应的jar <dependency> <groupId>org.springframework</groupId> <artifactId>spring-web</artifactId> <version>3.1.0.RELEASE</version> </dependency> <dependency> <groupId>org.springframework</groupId& ...
概述: 该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合. 主要贡献: (1) 在一个大规模的Tag数据集上抽样分析了用户标注Tag的行为,发现Tag数据的关联特征。 (2) 提出利用Tag 的关联文档信息来进行关键词抽取的框架,并给出一种实现方法Tag-TextRank。实验结果表明,Tag作为一种弱的指导信息,可以显著提高关键词抽取的精度。 Tag-TextRank算法的步骤: 1.根据要抽取的文档d中词的相邻关系,构建词项图G 2.对于d上的每一个Tag ...
利用Spring注解MVC的时候我们发现有两个注解@PathVariable和@RequestParam 举例如下: http://localhost:8080/api/show/id?id=22 在restful格式中我们采用 http://localhost:8080/api/show/{id}?id=22 这样path上的参数我们就可以通过@PathVariable获取,而参数上的值可以通过@RequestParam获取 针对其具体的属性我们查看源码: public @interface PathVariable { /** The URI template var ...
概述: 此分享是关于百度推荐引擎实践:策略篇简介 汇总点: 1.搜索与推荐是被动和主动的关系; 2.推荐系统成熟的原因是用户行为数据的日益完善; 3.推荐系统的前景如:个性化营销,个性化广告; 4.推荐系统在百度的应用包括但不限于:百度知道,首页导航,贴吧相关推荐,百度音乐等; 5.百度推荐系统技术包括但不限于:数据仓库,算法平台,流计算; 6.数据充足,简单算法性能可以很好;数据缺失,任何算法也不可能有好的性能; 7.不仅要吸引用户户提供反馈,而且要吸引用户提供准确反馈 ; 8.“通用系统平台+归一化数据+算法”+“垂直策略设计” 9.知识点包括但不限于:关联定义,数 ...
概述: 此分享是关于淘宝推荐系统简介 汇总点: 1.推荐引擎就是:如何找到用户感兴趣的东西和以什么形式告诉用户; 2.推荐引擎的作用:提高用户忠诚度,提高成交转化率和提高网站交叉销售能力; 3.推荐系统核心:产品,系统和算法; 4.推荐系统产品形式:邮件营销,群体信息披露,趋势引导,评论、资讯推荐和相关商品、店铺、达人推荐; 5.推荐系统系统组成:数据,算法,消息系统,Search engine,NoSQL,分布式计算和效果评测; 6.算法包括离线: 用户类目偏好、用户购买力分析、关联性分析和在线:排序、过滤、增量计算 7.分布式计算包括:大规模数据统计,运算和大数据集合的E ...
概述: 此分享是关于Namenode中Blocksmap太大等引起的瓶颈问题解决方案 技术点: 1.用行级锁缩小Namespace锁粒度 2.用Cache + FusionIO解决吃内存的问题 3.持久化Blockmap, 加速重启过程 4.无状态化Namenode, 支持热部署 5.简单主备策略保证可靠性 详情参见附件
概述: 此分享是关于hadoop生态系统的简单介绍包括起源到相对应用 技术点: 1.hadoop核心包括Common,HDFS和MapReduce; 2.Pig,Hbase,Hive,Zookeeper; 3.Hadoop日志分析工具Chukwa; 4.MR解决的问题:海量输入数据,简单任务划分和集群计算环境; 5.执行流程:FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 6.分布式计算包括:作业和任务调度和执行,预测执行,故障处理和针对不同应用环境的优化 7.HDFS可靠性措施:NameNode备份,多数 ...
概述: 此分享是关于淘宝数据存储和检索想过技术点的分享 技术点: 1.基于Hbase进行数据存储 2.Hbase没有二级索引的解决方案是采用合理的rowkey,同时充分利用HBase存储的三维有序,如: rowKey:userId column: 索引条件 version: 订单ID 3.join在server端处理,利用cache进行分页操作; 4.适当采用冗余表 5.基于Solr进行垂直检索 6.基于zookeeper进行配置中心化 总结: 1.同时充分利用HBase存储的三维有序; 2.基于Solr进行垂直检索; 3.基于zookeeper进行配置中 ...
大环境概述: java -version java version "1.6.0_21" Java(TM) SE Runtime Environment (build 1.6.0_21-b06) Java HotSpot(TM) Client VM (build 17.0-b16, mixed mode, sharing) spring的版本:3.1.0.RELEASE spring-mock的版本:1.2.6 采用Spring 注解mvc 控制层: @Controller @RequestMapping("/case") publ ...
Global site tag (gtag.js) - Google Analytics