对Cassandra的初体验

linliangyi2007

浏览: 1017989 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Cassandra MongoDB NoSQL 数据结构 SNS

    作为“云计算”时代的架构设计人员而言，不懂K-V库会被人说out的，为此，笔者在“人云已云”的忽悠下，也开始接触K-V数据库了。

    在啥都不清楚的情况下，首先选择跟风，未必是一件坏事。尤其对技术人员而言，先入门再做选择，也不失为一种方法。“听说xxx大网站都是用Cassandra存储他们的SNS数据的，我们也要试试”，于是乎，开始了Casssandra初体验。

（PS：本文不是cassandra的入门学习的材料。以下均为笔者自己的理解，一家之言，不正确的地方，望指正...）

以OO的方式理解Cassandra的数据模型
    学习Cassandra，首先要理解它有别于传统数据库的存储模型。对于常使用HashMap的Java程序员而言，K-V的映射结构并不难理解。

把Cassandra的ColumnFamily看成HashMap
    网上有不少文章认为ColumnFamily类似RDB中的Table，这样理解有一定道理，但笔者更愿意从OOD的角度去诠释它。从Cassandra的设计实现上看，把它理解为大型的散列结构的索引更贴近其本来面目。

ColumnFamily中的K-V映射
ColumnFamily中的K-V映射有两大类型：

1.基于Column的 “1个Key” --->“n个Column” 的单层映射
2.基于SuperColumn的 “1个key” ---> “n个SuperColumn” ，“1个SuperColumn”--->“n个SubColumn”的两层映射

    针对第一种单层映射，从OOD角度看，笔者理解为 1 Key --> 1 Javabean的标准HashMap映射。你完全可以把“n个Column”理解为直接暴露在外的Bean的n个属性。

    而对于第二种的两层映射，笔者认为是 1 Key --> Bean列表的 1对n 映射。这里，你可以把“1个SuperColumn”--->“n个SubColumn”的映射，理解为 1个Bean 对 n个属性的映射封装；把“1个key” ---> “n个SuperColumn”，视为 Key 对 Bean 的一对多映射，即 Key 映射一个Bean列表。

    之所以笔者使用对象模型视角，而不是数据库的行列模型视角来看待Cassandra，是有以下原因的：

首先，Cassandra设计以Key为主导的数据映射寻址机制有别于以“ResultSet结果集”为主的传统RDB数据获取模式。
其次，从Cassandra数据的持久化实现上看，对于一个SuperColumn的读取和存储，Cassandra是采用了一次性序列化的。也就是说，即便你只访问SuperColumn下的1个SubColumn的值，Cassandra也需要把这个SuperColumn下的所有SubColumns都读出，一次性进行反序列化，而后返回你要单个属性列。从这点上看，笔者认为Cassandra的设计者是将SuperColumn视为整体的一个持久化对象（一个完整的JavaBean）来看待。

Column的排序与组织
在Cassandra中，给出Column/SuperColumn的排序方式是十分重要的事。事实上，在你定义ColumnFamily时，你是无需定义其包含了那些Column/SuperColumn，而更重要的是定义Column/SuperColumn的排序方式。这里，笔者根据自己的理解做以下的判断：

1.ColumnFamily与RDB的Table结构完全不同，它不是规整的二维矩阵形态，笔者大胆推测，应该更类似树形结构。树的子节点是可以在程序运行时任意添加的，而ColumnFamily中Column也是动态增减的。
2.Cassandra对Column的组织是严格顺序结构的，很可能是类似TreeSet的有序树型结构。这也很好解释为啥ColumnFamily必须定义Column的排序规则，并且数据结构中有ColumnPath这个概念（看上去很像url路径，不是吗？）

Cassandra数据的Json表现
为了让各位看官更直观的体验Cassandra的数据结构，增加以下的Json表现部分：

1.单层映射(Column)的JSON格式

{
   "mccv":{
      "Users":{
         "emailAddress":{"name":"emailAddress", "value":"foo@bar.com"},
         "webSite":{"name":"webSite", "value":"http://bar.com"}
      },
      "Stats":{
         "visits":{"name":"visits", "value":"243"}
      }
   },
   "user2":{
      "Users":{
         "emailAddress":{"name":"emailAddress", "value":"user2@bar.com"},
         "twitter":{"name":"twitter", "value":"user2"}
      }
   }
}

其中 “mccv”，“user2” 是key ； “Users”，“Stats”是ColumnFamily，
“emailAddress” ， “webSite”，“visits”等是Column。

1.二层映射(SuperColumn)的JSON格式

{
  "mccv": {
    "Tags": {
      "cassandra": {
        "incubator": {"incubator": "http://incubator.apache.org/cassandra/"},
        "jira": {"jira": "http://issues.apache.org/jira/browse/CASSANDRA"}
      },
      "thrift": {
        "jira": {"jira": "http://issues.apache.org/jira/browse/THRIFT"}
      }
    }  
  }
}

其中 “mccv”为key ；"Tags"为ColumnFamily ；“cassandra”，“thrift” 为SuperColumn ； “incubator”，“jira” 为 subColumn.

以OO的方式使用Cassandra
Cassandra官方提供了thrift作为其客户端的API，但我们发现它是面向Column的“底层化”操作。这无疑对习惯了以为Bean操作单元的Java开发者而言，是一个痛苦的思维转化过程和代码实现。

好在我们在其官网发现了一个受推荐的，相对高级的Java客户端，也就是笔者要推荐的“Pelops”。该API提供了对ColumnFamily的整体性操作，并且还提供了类似翻页，排序的实现。在“Pelops”基础上，我们通过简单的、对JavaBean属性的类反射封装，实现了类似Hibernate式的Bean的存储访问（而不再是Bean的属性对应一个Column的读写），这让笔者的心情大为舒畅

。

Pelops的一点小插曲
笔者在使用Pelops的过程中，发生了一些小插曲：在系统正式发布时，Cassandra的访问账户必须有安全限制的（就是要有用户名、密码认证）。然而，找遍了Pelops的API，却发现它没有提供用户名、密码的配置方法（晕死啊！！！不知道是不是笔者没找到），最后不得已，对其源码进行了简单的修改。

以下是被笔者修改的两个类：

1.org.wyki.cassandra.pelops.Policy.
这个类只是简单的添加了username 、 password、 keyspace三个属性，以及对应的get，set方法，通过它将账户配置信息传入链接池。

2.org.wyki.cassandra.pelops.ThriftPool.
这个是 pelops的链接池类，笔者修改了其中的私有方法createConnection（），使得在创建链接的时候，带上用户名密码的安全认证信息

        private Connection createConnection() {
            Connection conn;
            try {
                conn = new Connection(this, defaultPort);
            } catch (SocketException e) {
                e.printStackTrace();
                return null;
            } 
            
            if (conn.open(sessionId.get())){
                // **** add by linliangyi ***                
                Policy police = getPolicy();
                if(police.keyspace != null && police.username != null && police.password != null){
                    Map<String , String> userNamePassword = new HashMap<String , String>();
                    userNamePassword.put(SimpleAuthenticator.USERNAME_KEY, police.username);
                    userNamePassword.put(SimpleAuthenticator.PASSWORD_KEY, police.password);
                    try {
                        conn.getAPI().login(police.keyspace , new AuthenticationRequest(userNamePassword));
                    } catch (AuthenticationException e) {
                        e.printStackTrace();
                        return null;
                    } catch (AuthorizationException e) {
                        e.printStackTrace();
                        return null;
                    } catch (TException e) {
                        e.printStackTrace();
                        return null;
                    }
                    logger.trace(police.keyspace + " | " + police.username + " | " + police.password);
                }                 
                
                return conn;
            }
            
            return null;
        }

至此，笔者对Casssandra初体验告一段落。

分享到：

这个图可以搜藏，嘎嘎嘎 | Spring + iBatis 的多库横向切分简易解决思 ...

2010-10-13 17:58
浏览 9217
评论(46)
论坛回复 / 浏览 (46 / 22493)
分类:编程语言
查看更多

46 楼 kimmking 2011-04-20

fxsjy 写道

毛遂自荐我们的NoSQL：
http://code.google.com/p/treapdb/

常见问题：
http://code.google.com/p/treapdb/issues/list

例程：
http://code.google.com/p/treapdb/wiki/SomeBenchmark

试了试 treapdb，
1、代码没注释，几乎没有文档。
2、get put 的value是 ByteBuffer，不好用啊。
3、prefix是个怪别扭的东西，有点像 columnFamily或者 Collection，如果要定义成collection一样的东西，
最好还是在client的API封装一层吧。
4、貌似没有removeAll的功能？
5、性能一般。自带的TestTreapDBClient的例子，我机器上6.5k record/s

45 楼易卡螺丝君 2011-04-20

redis毫无压力的撸过

44 楼 kimmking 2011-04-20

mathgl 写道

lxiaodao 写道

我在试验并发写入的时候（java客户端），单节点老是出现问题，不是连接被拒绝就是其它问题。请问大家有没有遇到类似的问题，是不是使用cluster就没有这样的问题。
还有，我感觉cassandra的查询功能很弱啊，select * from user u where u.name='gongcheng'这样的查询好像不能支持啊！?

mongodb是全部数据扔进内存，比如查询的时候它先把数据都加载内存，然后查询，所以它不能支持大数据量，推荐内存>数据量的情况。我觉得这个很恶心，如果内存那么大，我都可以不用数据库了。

如有问题，欢迎指正。

mongodb如果我记得没错它使用 mmap的。吃内存惊人。

mongodb 在32bit 下就是个玩具。

43 楼 kimmking 2011-04-20

Cassandra 是nosql里为数不多的pure java的。
正在学习中。。。

42 楼 yizhilong28 2011-04-20

Cassandra小试，思维还没完全转过来。。。

41 楼 mathgl 2011-02-10

lxiaodao 写道

mongodb如果我记得没错它使用 mmap的。吃内存惊人。

40 楼 fxsjy 2010-12-18

毛遂自荐我们的NoSQL：
http://code.google.com/p/treapdb/

常见问题：
http://code.google.com/p/treapdb/issues/list

例程：
http://code.google.com/p/treapdb/wiki/SomeBenchmark

39 楼 lxiaodao 2010-12-18

38 楼 store88 2010-10-18

linliangyi2007 写道

对Cassandra的问题比较感兴趣，前阵子听说twitter不用了，而digg的CTO也因为技术问题离职了，但是没人说具体是由于Cassandra的什么问题造成的？？请教细节，谢谢

twitter暴了好像cassandra数据量一多就有问题了吧
facebook用cassandra也不是用在大数据量方面的样子

digg报道的时候倒没说什么

37 楼 linliangyi2007 2010-10-17

whzhaha 写道

其实google有在用 berkeley db，不说了，感觉搞推销的一样，哈哈。

BDB应用面应该很广，不过貌似单个对象大小有限制，是这样的吗！？

36 楼 whzhaha 2010-10-17

其实google有在用 berkeley db，不说了，感觉搞推销的一样，哈哈。

35 楼 linliangyi2007 2010-10-17

store88 写道

BDB我也在用呀，我控制不好，时间比较紧只好在写操作的时候单线程写入，多线程写数据超过了3天后，我的bdb的jdb存储文件一般就损坏了
用好bdb，看来要研究下heritrix怎么用bdb的啦

Cassadra一点都不敢用了，twitter, digg都暴出大问题了
直接用java调tokyocabinet库，内存的开销好像也很大
暂时先用mysql实现吧
以后有时间，还是想换mongodb

34 楼 store88 2010-10-17

whzhaha 写道

linliangyi2007 写道

forchenyun 写道

whzhaha 写道

最近也让NOSQL在我脑子了过了下，我们现在的项目我本来打算用MongoDB，但是MongoDB有个约束就是32位下只能数据到2G这远远搭不到我的数据存放量，64位是没限制的，服务器改成64位风险太大，现在我采用Berkeley DB，也不知道以后项目上线后稳定性怎么样，有ORACLE做护盾Berkeley DB应该不会太差吧，祈祷下，呵呵

Java版本的bdb和c版本的有很多不同，建议关注一下
MongoDB的大数据量下的表现还是令人不太放心

啊~~~楼上两位说的可是真的，如果MongoDB不支持大数据，我们干啥还用它，只是SNS部分的数据特征就是海量！！
请知情的大大说说？！还是64位是必须的

（服务器用64位似乎也是有道理的）

只是和寻址有关，32位机器最大只能保存2G数据，64位系统则没有限制，MongoDB官方也推荐用64位机器!
BDB现在我自己做了下，觉得还蛮爽，直接持久化JAVA对象，取的时候直接得到自己想要对象，移植也很方便，只要拷贝文件就KO了。

33 楼 forchenyun 2010-10-17

linliangyi2007 写道

forchenyun 写道

whzhaha 写道

Java版本的bdb和c版本的有很多不同，建议关注一下
MongoDB的大数据量下的表现还是令人不太放心

啊~~~楼上两位说的可是真的，如果MongoDB不支持大数据，我们干啥还用它，只是SNS部分的数据特征就是海量！！
请知情的大大说说？！还是64位是必须的

（服务器用64位似乎也是有道理的）

MongoDB面向文档的nosql，和一般的k-v不是很一样，并且在按key查询的情况下肯定远低于k-v的nosql
如果对它有兴趣可以看看国外关于它和mysql的性能比较，个人感觉是不太乐观
小数据量2-3000w这种用它还是蛮爽的，不过在这样数据量级别还有tc和tt......
但是不得不说它自带的mapreduce还是值得借鉴的

32 楼 whzhaha 2010-10-17

linliangyi2007 写道

forchenyun 写道

whzhaha 写道

Java版本的bdb和c版本的有很多不同，建议关注一下
MongoDB的大数据量下的表现还是令人不太放心

啊~~~楼上两位说的可是真的，如果MongoDB不支持大数据，我们干啥还用它，只是SNS部分的数据特征就是海量！！
请知情的大大说说？！还是64位是必须的

（服务器用64位似乎也是有道理的）

31 楼 linliangyi2007 2010-10-17

forchenyun 写道

whzhaha 写道

Java版本的bdb和c版本的有很多不同，建议关注一下
MongoDB的大数据量下的表现还是令人不太放心

啊~~~楼上两位说的可是真的，如果MongoDB不支持大数据，我们干啥还用它，只是SNS部分的数据特征就是海量！！
请知情的大大说说？！还是64位是必须的

（服务器用64位似乎也是有道理的）

30 楼 forchenyun 2010-10-17

whzhaha 写道

Java版本的bdb和c版本的有很多不同，建议关注一下
MongoDB的大数据量下的表现还是令人不太放心

29 楼 whzhaha 2010-10-16

28 楼 linliangyi2007 2010-10-16

ferly_j 写道

linliangyi2007 写道

ferly_j 写道

最近要做一个站内发消息的功能，用户量大了数据库会很难承受（不喜欢水平拆分的方式），想试试nosql，不知道nosql是否适合这种场景，有什么风险不，希望大拿们给点意见。

目前nosql数据库已经在这个方面大量使用了，从风险上说，应该不大，就看用好用坏的问题了

目前对nosql的这些产品还不是很了解，选择也很多，看到很多人推荐MongoDB，但是感觉Cassandra名气更大，
o(∩_∩)o...待楼主继续分享经验

本人还没用过MongoDB，不敢妄加评论，建议有时间，两个都试试，

27 楼 ferly_j 2010-10-16

linliangyi2007 写道

ferly_j 写道

目前nosql数据库已经在这个方面大量使用了，从风险上说，应该不大，就看用好用坏的问题了

目前对nosql的这些产品还不是很了解，选择也很多，看到很多人推荐MongoDB，但是感觉Cassandra名气更大，
o(∩_∩)o...待楼主继续分享经验

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论