Mongodb和Hbase的对比
1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。
2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。
字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。
3.Mongodb支持二级索引,而hbase本身不支持二级索引
4.Mongodb支持集合查找,正则查找,范围查找,支持skip和limit等等,是最像mysql的nosql数据库,而hbase只支持三种查找:通过单个row key访问,通过row key的range,全表扫描
5.mongodb的update是update-in-place,也就是原地更新,除非原地容纳不下更新后的数据记录。而hbase的修改和添加都是同一个命令:put,如果put传入的row key已经存在就更新原记录,实际上hbase内部也不是更新,它只是将这一份数据已不同的版本保存下来而已,hbase默认的保存版本的历史数量是3。
6.mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。
7.mongodb和hbase都支持mapreduce,不过mongodb的mapreduce支持不够强大,如果没有使用mongodb分片,mapreduce实际上不是并行执行的
8.mongodb支持shard分片,hbase根据row key自动负载均衡,这里shard key和row key的选取尽量用非递增的字段,尽量用分布均衡的字段,因为分片都是根据范围来选择对应的存取server的,如果用递增字段很容易热点server的产生,由于是根据key的范围来自动分片的,如果key分布不均衡就会导致有些key根本就没法切分,从而产生负载不均衡。
9.mongodb的读效率比写高,hbase默认适合写多读少的情况,可以通过hfile.block.cache.size配置,该配置storefile的读缓存占用Heap的大小百分比,0.2表示20%。该值直接影响数据读的性能。如果写比读少很多,开到0.4-0.5也没问题。如果读写较均衡,0.3左右。如果写比读多,果断默认0.2吧。设置这个值的时候,你同时要参考hbase.regionserver.global.memstore.upperLimit,该值是memstore占heap的最大百分比,两个参数一个影响读,一个影响写。如果两值加起来超过80-90%,会有OOM的风险,谨慎设置。
10.hbase采用的LSM思想(Log-Structured Merge-Tree),就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改merge后批量写入到磁盘,这样将单个写变成了批量写,大大提高了写入速度,不过这样的话读的时候就费劲了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。mongodb采用的是mapfile+Journal思想,如果记录不在内存,先加载到内存,然后在内存中更改后记录日志,然后隔一段时间批量的写入data文件,这样对内存的要求较高,至少需要容纳下热点数据和索引。
1. 使用Redis有哪些好处?
(1) 速度快,因为数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1)
(2) 支持丰富数据类型,支持string,list,set,sorted set,hash
(3) 支持事务,操作都是原子性,所谓的原子性就是对数据的更改要么全部执行,要么全部不执行
(4) 丰富的特性:可用于缓存,消息,按key设置过期时间,过期后将会自动删除
2. redis相比memcached有哪些优势?
(1) memcached所有的值均是简单的字符串,redis作为其替代者,支持更为丰富的数据类型
(2) redis的速度比memcached快很多
(3) redis可以持久化其数据
3. redis常见性能问题和解决方案:
(1) Master最好不要做任何持久化工作,如RDB内存快照和AOF日志文件
(2) 如果数据比较重要,某个Slave开启AOF备份数据,策略设置为每秒同步一次
(3) 为了主从复制的速度和连接的稳定性,Master和Slave最好在同一个局域网内
(4) 尽量避免在压力很大的主库上增加从库
(5) 主从复制不要用图状结构,用单向链表结构更为稳定,即:Master <- Slave1 <- Slave2 <- Slave3...
这样的结构方便解决单点故障问题,实现Slave对Master的替换。如果Master挂了,可以立刻启用Slave1做Master,其他不变
==========
二面的面试官是做Java研发的。
刚开始,还是讨论比赛和分布式。后面问了我一道大量文本处理的问题“找出一个大文本中的Top3的字符串”。没有做过这方面的研究,答的不好。
1. Java问题:"讲一下JVM的结构。"
2. 网络问题:"TCP/IP的三次握手、四次挥手"
3. "淘宝用户的数据(购物车……)存在那里?怎么满足高并发?"
4. "输入两个整型数组,返回一个数组:两个数组中的公共值。"
其实,到这个时候,自己有点思路混乱了,有点紧张。我从快速排序算法开始写,然后用的方法也不是最好的。面试官不是很满意。
后面吃午饭的时候,我想到其实可以为O(nlgn)排序后,再O(m+n)就可以了。跟别人讨论的时候,我想到,针对某些特殊的情况;其实这个可以用哈希的思想来做。复杂度O(K),K为数组中的最大值。
面试官3:“考一下你对递归的掌握。写一个函数,输入int型,返回整数逆序后的字符串。如:输入123,返回“321”。 要求必须用递归,不能用全局变量,输入必须是一个参数,必须返回字符串。”
当时,只做到了逆序输出(打印),并没有做到逆序返回字符串。
吃完午饭,跟别人讨论的时候,我突然想到这个要用到二叉树递归求解深度、叶子数等问题的一些思想:每次返回的时候加上上一次的返回值。
这个时候,面试官不是很满意,正好也该吃饭了。然后,面试官3说:“这样吧。我帮你找个数据研发的,你再去面试一下。让他来做评价吧。”虽然不情愿,但是还是同意了。毕竟这次表现太差了。
相关推荐
用TypeScript编写的功能齐全的markdown解析器和编译器。 这是marked的流行库的分支(从chjj / release-0.3.7,2017年12月1日合并合并请求#961)。 郎 目录 安装 npm install @ts-stack/markdown --save 用法 最少...
npm i -g marked-toc --save 在任何降价文件中,添加<!-- toc -->要添加 TOC 的位置。 然后在命令行中,运行: toc [filename] 如果您将 toc 添加到README.md ,则无需添加[filename] ,只需运行toc 。 ...
标题中的"marked-0.3.2-1.zip"表明这是一个软件库的压缩包,标记为"marked"的版本0.3.2的第一个修正版。Marked通常是一个文本解析库,用于将Markdown语法转换为HTML,它在开发文档、博客和网站中非常常见。Markdown...
const linkify = require ( "marked-linkify-it" ) ; // or ES Module script // import marked from "https://cdn.jsdelivr.net/gh/markedjs/marked/lib/marked.esm.js"; // import linkify from ...
标记形式 ... 从诸如[text ?input?](name)类的markdown链接生成标签和输入控件。 安装 npm install marked-forms 重大变化 从v3.0.0版本开始,该库使用插件api。...var markedForms = require ( 'marked-forms' )
marked-engine是兼容的模板引擎,用于呈现Markdown。 安装 $ npm install marked-engine 用法 将marked-engine注册marked-engine扩展名为“ .md”的文件的模板引擎。 app . engine ( 'md' , require ( 'marked-...
totalshare2java.zip,一种提供基于常用的OAuth2的第三个网站登录功能的工具。一种提供基于常用的OAuth2的第三个网站登录功能的工具。
综上所述,`StoryPublish`项目是一个集成了Node.js、Express、MongoDB和Google身份验证的Web应用,旨在提供一个安全、易用的故事分享平台。通过学习和实践这个项目,开发者可以加深对这些技术的理解,并提升全栈开发...
总的来说,hexo-renderer-marked-plus是一个提升Hexo Markdown渲染体验的强大工具,特别是对于那些注重细节、追求个性化和希望避免ID冲突的博客作者来说。通过使用这个插件,我们可以享受到更加稳定、个性化的...
本项目是一款基于marked和highlight.js开发的Markdown编辑器,专为Vue项目设计。接下来,我们将深入探讨这款编辑器的关键技术和实现细节。 **一、Markdown语法** Markdown是一种轻量级的标记语言,它的设计理念是...
npm install marked marked-terminal 例子 var marked = require ( 'marked' ) ; var TerminalRenderer = require ( 'marked-terminal' ) ; marked . setOptions ( { // Define custom renderer renderer : new ...
安装npm install marked-images用法注意:重大更改: 从 ,该库使用插件api。 var marked = require ( 'marked' ) ;var markedImages = require ( 'marked-images' ) ;// opts are optionalvar opts = { xhtml : ...
涉及的步骤如下:$ git clone https://github.com/code-plus-coffee/marked-preview.git$ cd marked-preview# NPM$ npm install or npm i# OR# Yarn$ yarn# After npm install is done$ npm start 现在可以在访问...
var mdRenderer = require ( 'marked-to-md' ) ; var source = '# Markdown to md renderer\nHello world!' ; var tokens = marked . lexer ( source ) ; var mdToMd = parser . parse ( tokens ) ; console . log ...
对于开发者来说,这意味着如果还在使用旧版的Polymer,他们可以继续使用marked-element,但应该考虑升级到与新版本框架兼容的替代组件,以保持项目的最新状态和最佳实践。 标签"HTML"提示我们这个话题与HTML编程...
HBase3.0参考指南 This is the official reference guide for the HBase version it ships with. Herein you will find either the definitive documentation on an HBase topic as of its standing when the ...
$ npm install --save marked-sanitizer-github 用法 它输出一类SanitizeState因为该清理是有状态的。 您可以通过调用getSanitizer()方法来为标记的解析器获取一个消毒剂。 它返回一个要清除的函数对象。 con