之前知道有这么一个word count的程序,但是不知道究竟做什么用,这几天看了一下,也跑了一下程序,做个小的总结。
在cassandra的wiki上说cassandra目前支持使用hadoop来读取数据,如果真是这样的话,那么cassandra的读取将能够借助于map reduce实现并行读取,速度必然能够成倍的提高,cassandra的性能将更加完善,首先在写方面已经实现了优化,其次在hadoop的帮助下,读也不再是其缺点,wiki上说可以通过word count看一下,下边说一下word count怎么运行。
其实方法很简单,但是难的是如果遇到了问题该怎么解决!
首先下载0.7-beta2-src的源码,在ubuntu上解压:
word count程序就在contrib/word_count中,里边有一个ReadMe.txt
如果直接按照上边的步骤直接ant做的话就会出现下边步骤:
首先是ivy下载很多的jar包,在后来building source files时需要build two files,但是这里会出错,提示找不到jars的目录,那是因为没有对源码进行build,所以导致源码build/lib/jars为空,因此需要先在src的根目录执行ant先对cassandra源码编译下载相应的jars,之后再执行word_count里的ant即可,在编译完了之后并不一定就是可以执行的,需要保证word_count_setup源码中server和配置文件中的一致(修改word_count或者word_count_setup,需要重新ant编译),这个时候启动cassandra(bin/cassnadra即可),然后再执行word_count_setup,然后执行word_count即可完成测试。
附:在编译上述文件的时候耐心等待,有可能会由于网速原因很慢,即使出现很多的。。。。也是正常的,这个时候的做法就是等。
word_count_setup:作用是创建相应的keyspace和columnfamily,并在其中插入一些column和value,另外也为word_count提供相应的连接方法。 如果你在执行word_count_setup的时候报keyspace已经存在的错误,不要着急,先在 cassandra中删除即可(使用cli中的drop keyspace或者修改word_count_setup为先检查是否存在,不存在的时候再建)。
word_count:这个是实现从cassandra中读取数据并实现并行计算的主程序,包括构建mapper和reducer以及如何构造job,具体细节可以查看文件。
分享到:
相关推荐
### Cassandra权威指南中文版知识点梳理 #### 一、Cassandra简介与特性 ...通过学习本书,读者不仅可以掌握Cassandra的核心技术,还能了解到如何在实际项目中高效利用Cassandra解决复杂问题的方法。
### Cassandra在Windows上的安装与使用方法详解 Cassandra是一款分布式NoSQL数据库系统,因其高可扩展性和容错性而受到广泛欢迎。对于那些在Windows环境下希望部署和使用Cassandra的用户,本文将详细介绍如何在...
Java NoSQL Cassandra Hector...了解和掌握Hector的使用方法,能够帮助开发者更好地利用Cassandra的分布式特性和强大的数据处理能力。在实际项目中,结合Cassandra的特性进行优化,可以实现更高效的数据存储和检索。
它使得在Kubernetes环境中运行和扩展Cassandra数据库变得更加简单和自动化。在这个压缩包“cassandra-operator,apache-cassandra的kubernetes算子.zip”中,包含的是Cassandra-Operator的源代码,可能还有相关的文档...
Cassandra 集群配置详解 本文将通过实例介绍 Cassandra 的简单配置,包括基本配置、集群配置、启动 Cassandra 和集群管理等...通过本文,读者可以了解 Cassandra 集群配置的基本原理和实现方法,并应用于实际项目中。
Cassandra,作为NoSQL数据库家族中的重要成员,因其高可用性、可扩展性和出色的性能,在大数据处理领域得到了广泛应用。本书旨在帮助读者理解Cassandra的核心概念、架构设计以及实际操作技巧。 在Cassandra的世界里...
用户可以通过图形化界面定义键空间(keyspaces)、列族(column families,Cassandra中的表)以及它们的字段,支持主键和索引的配置。 2. **CQL编辑器**:DevCenter内置了一个Cassandra查询语言(CQL)的编辑器,...
在本文档中,标题“Learning_Apache_Cassandra”透露了内容的主题,即学习Apache Cassandra。Cassandra是一个开源的NoSQL分布式数据库管理系统,它以高可用性和分布式架构著称。该书详细介绍了Cassandra的基本概念、...
Cassandra作为一款开源的分布式NoSQL数据库系统,以其高可扩展性、高性能和强大的数据一致性而著称,被广泛应用于处理大量结构化和半结构化数据的场景中。 ### 关键知识点一:Cassandra架构原理 Cassandra采用了一...
Cassandra采用了分布式存储架构,通过将数据均匀分布在整个集群中的各个节点,实现了水平扩展。每个数据项都被分配到特定的节点,根据一种称为虚拟节点(Virtual Nodes)的机制进行分布,该机制可以自动均衡数据分布...
* 模式灵活:使用 Cassandra,不需要提前解决记录中的字段。可以在系统运行时随意的添加或移除字段。 * 真正的可扩展性:Cassandra 是纯粹意义上的水平扩展。为给集群添加更多容量,可以指向另一台电脑。 * 多数据...
在Cassandra 3.11.3版本中,我们看到了许多优化和改进,使其成为企业级应用的可靠选择。 首先,Cassandra的核心特性之一是它的分布式架构。它采用了一种主从复制模型,每个节点都可以接受写入和读取请求,使得系统...
项目中使用的Spring Data Cassandra是Spring框架的一个模块,它简化了与Apache Cassandra数据库的交互,提供了声明式的数据访问方法。EasyRest风格则意味着代码将遵循RESTful原则,使得API调用更加直观和简洁。 ...
Cassandra CLI是Apache Cassandra数据库系统的一个命令行工具,它提供了与Cassandra集群交互的能力,包括连接到远程节点、创建或更新模式(schema)、设置和检索记录及列,以及查询节点和集群元数据。这个工具主要...
在IT行业中,Cassandra是一款广泛使用的分布式数据库系统,设计用于处理大规模数据,具有高可用性和可扩展性。而C#是一种流行的面向对象编程语言,由微软开发,常用于构建Windows平台上的应用程序。当我们谈论...
10. **监控和日志**:Cassandra 提供了丰富的监控和日志功能,帮助管理员了解系统运行状况。3.11.13版本可能加强了这些工具,以便更好地诊断和解决问题。 总之,"apache-cassandra-3.11.13"是一个强大且经过优化的...
在本文中,我们将深入探讨如何将Spring Boot框架与Cassandra数据库集成,并利用Java Persistence API (JPA) 进行数据操作。Spring Boot以其简洁的配置和开箱即用的特性,已经成为Java开发中的首选框架之一。而...