TCDatabase,是我在创新院的同事,riceball的一个开源项目。http://code.google.com/p/tcdatabase
他自己也写了两篇blog作介绍。tcdatabase(一) tcdatabase(二)
不过我总感觉写得太像干巴巴的技术文档了,所以我自告奋勇的来帮他另写一个介绍,以下是第一部分:
一、TokyoCabinet、TokyoTyrant简介
我们常说的TC/TT,是TokyoCabinet/TokyoTyrant的简称。这两个开源项目,都是由日本人平林幹雄开发的。(Mikio Hirabayashi’s Homepage twitter: @hirabayashiM)
1、TokyoCabinet
TC,是一个Key-Value的数据库library,你可以通过C语言程序来访问TC提供的各种函数,也可以使用其他各种语言绑定,例如perl、ruby、java、lua。
TC对外的表现形式,无非是一组put/get方法,从内部实现来说,TC一共支持6种不同的数据结构,包括hash数据库,B+树数据库,定长数据库、表格数据库、内存hash数据库以及内存B+树数据库。
以ruby语言举例:
hdb = HDB::new
hdb.open("casket.tch", HDB::OWRITER | HDB::OCREAT)
hdb.put("foo", "hop")
value = hdb.get("foo")
hdb.close
这样就可以创建一个名为casket.tch的Hash数据库文件,并进行put/get的操作。
也可以通过ADB(Abstract database),以完全相同的API,创建并访问不同的数据库。
adb = ADB::new
adb.open(name)
…
adb.close
其中,如果name为*,则创建一个内存hash数据库;name为+,则是内存B+树数据库;文件名为*.tch、*.tcb、*.tcf、*.tct则分别对应于hash、B+Tree、fixed-length和table类型。
2、TokyoTyrant
至于TT,则是在TC基础上实现的一个server。TT接受来自socket连接的各种请求,作为一个网络服务而存在着。通常我们会这样来启动TT。
ttserver –port 3900 /ttdata/casket.tch
这样,在3900端口,就启动了一个数据库服务,这个数据库的数据,就保存在/ttdata/casket.tch中。
而在client端,也多种不同的语言实现,例如ruby的代码会写成这样:
rdb = RDB::new
rdb.open("localhost", 3900)
rdb.put("foo", "hop")
value = rdb.get("foo")
rdb.close
对于table类型的数据库,则需要创建一个RDBTBL的对象实例,因为它提供了更多的一些访问API,例如:
rdb = RDBTBL::new
rdb.open("localhost", 1978)
rdb.put("1", { "name" => "mikio", "age" => "30", "lang" => "ja,en,c" })
qry = RDBQRY::new(rdb)
qry = RDBQRY::new(rdb)
qry.addcond("age", RDBQRY::QCNUMGE, "20")
qry.addcond("lang", RDBQRY::QCSTROR, "ja,en")
qry.setorder("name", RDBQRY::QOSTRASC)
qry.setlimit(10)
res = qry.search
res.each do |rkey|
rcols = rdb.get(rkey)
printf("name:%s\n", rcols["name"])
end
这样的操作,就已经相当接近于对一个传统表的操作了。
二、TCDatabase对TokyoTyrant的扩展
1、skeleton机制
TT对于扩展的支持相当友好,在ttserver中,有一个-skel参数,可以在启动ttserver的时候,挂一个自己写的骨架系统,例如:
ttserver -skel mydb.so -port 3900 myfile.tct
这样,ttserver的功能,就成了一个简单的网络接口,而接收到的各种请求,都为转交给mydb.so来处理。接下来的事情,就海阔天空了。对于client端来说,他访问的是标准的TT接口,而在server端,却完全可以通过自己写的一个扩展,将数据存到mysql里面去。
而tcdatabase,就是TT的一个skeleton实现。所以,他的启动参数是这样的:
ttserver -skel tcdatabase.so -port 3900 db_filename.tcb
2、TCTDB的不足之处
作为最像传统表的Key-Value数据库,TCTDB有很多优点,这成为我们项目选择的主要考虑对象,但是它也存在着诸多问题:
- 一个Table Database仅支持一个表,也就是说value中的字段必须固定一致。假设一个项目中使用了80多个表,这意味着你需要开启80多个 ttserver进程,并为每一个“表”提供支持。
- 功能的增强,也就意味着要牺牲性能。TCTDB 表格型数据库的平均读取速度大约在40万条/秒,相比 TCHDB哈希数据库的180万条/秒和TCBDB B+Tree数据库 的100万条/秒要慢。
- TCTDB虽然可以建立数值型索引,但是它是将所有value数据都当成字符型来处理的,无法区分value类型。
- TCTDB单数据库文件存储的记录数上亿条后,性能会有比较明显的下降。
- 不能单独获取value中的某一个字段的值;
- 不能支持仅更新UPDATE key中某一个字段:必须先取出value的全部字段,再存入;
3、TCDatabase的改进
- 支持多个table从一个端口访问,从table变成真正的database,
- 数据文件改用采用TCBDB(B+Tree Database)进行存储,为了解决数据量上亿后的HashDB性能的问题
- 支持列读写
- 应该还有其它更多改进,不过都还在规划之中
(待续)
分享到:
相关推荐
1. **全文检索**: 全文检索是数据库系统中的一项重要功能,它允许用户在数据库中搜索包含特定词汇的记录。TCDatabase 支持全文检索,意味着你可以方便地对存储在 SQLite 数据库中的文本数据进行高效搜索,这对于需要...
原生js图片圆形排列按钮控制3D旋转切换插件.zip
内含二维数组与三维数组,分别为list2nd,list3rd
原生js颜色随机生成9x9乘法表代码.zip
原生js实现图片叠加滚动切换代码.zip
【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM) 注意力机制是深度学习中的重要技术,尤其在序列到序列(sequence-to-sequence)任务中广泛应用,例如机器翻译、文本摘要和问答系统等。这一机制由 Bahdanau 等人在其论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次提出。以下将详细介绍这一机制的背景、核心原理及相关公式。 全局注意力机制(Global Attention Mechanism, GAM)由 《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出,是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互,以提高分类任务的性能。与最早由 Bahdanau 等人提出的用于序列到序列任务的注意力机制 不同,这篇文章的重点是针对图像分类任务,并未专注于序
本项目在开发和设计过程中涉及到原理和技术有: B/S、java技术和MySQL数据库等;此文将按以下章节进行开发设计; 第一章绪论;剖析项目背景,说明研究的内容。 第二章开发技术;系统主要使用了java技术, b/s模式和myspl数据库,并对此做了介绍。 第三章系统分析;包罗了系统总体结构、对系统的性能、功能、流程图进行了分析。 第四章系统设计;对软件功能模块和数据库进行详细设计。 第五章系统总体设计;对系统管理员和用户的功能进行描述, 第六章对系统进行测试, 第七章总结心得;在论文最后结束章节总结了开发这个系统和撰写论文时候自己的总结、感想,包括致谢。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
镗夹具总工艺图
原生js树叶数字时钟代码.rar
近代非线性回归分析-韦博成1989
内容概要:本文详细介绍了用 Rust 语言实现冒泡排序算法的具体步骤,以及通过设置标志位来优化算法性能的方法。示例代码包括了函数定义、内外层循环逻辑、标志位的应用,并在主函数中展示了如何调用 bubble_sort 函数并显示排序前后的数组。 适合人群:具有基本 Rust 编程基础的学习者和开发者。 使用场景及目标:适用于想要深入了解 Rust 中冒泡排序实现方式及其优化技巧的技术人员。通过本篇文章,能够掌握 Rust 基本语法以及算法优化的基本思想。 阅读建议:除了仔细阅读和理解每一部分的内容外,还可以尝试修改代码,改变数据集大小,进一步探索冒泡排序的时间复杂度和优化效果。此外,在实际应用时也可以考虑引入并发或其他高级特性以提升性能。
培训课件 -安全隐患分类与排查治理.pptx
中国各地级市的海拔标准差数据集提供了298个地级市的海拔变异性信息。海拔标准差是衡量某地区海拔高度分布离散程度的统计指标,它通过计算各测量点海拔与平均海拔之间的差异来得出。这一数据对于评估地形起伏对网络基础设施建设的影响尤为重要,因为地形的起伏度不仅会增加建设成本,还会影响信号质量。此外,由于地形起伏度是自然地理变量,它与经济社会因素关联性较小,因此被用作“宽带中国”试点政策的工具变量,以研究网络基础设施建设对经济的影响。数据集中包含了行政区划代码、地区、所属省份、所属地域、长江经济带、经度、纬度以及海拔标准差等关键指标。这些数据来源于地理空间数据云,并以Excel和dta格式提供,方便研究者进行进一步的分析和研究。
YOLO算法的原理与实现
视网膜病变是糖尿病和高血压的主要微血管并发症。如果不及时治疗,可能会导致失明。据估计,印度三分之一的成年人患有糖尿病或高血压,他们未来患视网膜病变的风险很高。我们研究的目的是检查糖化血红蛋白 (HbA1c)、血压 (BP) 读数和脂质水平与视网膜病变的相关性。我们的主要假设是,血糖控制不佳(表现为高 HbA1c 水平、高血压和异常脂质水平)会导致视网膜病变风险增加。我们使用眼底照相机筛查了 119 名印度患者的视网膜病变,并获取了他们最近的血压、HbA1c 和血脂谱值。然后,我们应用 XGBoost 机器学习算法根据他们的实验室值预测是否存在视网膜病变。我们能够根据这些关键生物标志物高精度地预测视网膜病变。此外,使用 Shapely Additive Explanations (SHAP),我们确定了对模型最重要的两个特征,即年龄和 HbA1c。这表明血糖控制不佳的老年患者更有可能出现视网膜病变。因此,这些高风险人群可以成为早期筛查和干预计划的目标,以防止视网膜病变发展为失明。
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
这组数据涵盖了1999至2020年间中国各地区普通小学毕业生的数量。它为我们提供了一个深入了解中国教育领域中普通小学阶段教育水平和教育资源分配情况的窗口。通过分析这些数据,可以为制定科学合理的教育政策提供依据,同时,通过比较不同城市的普通小学毕业生数,也能为城市规划和劳动力市场调查提供参考。数据来源于中国区域统计年鉴和中国各省市统计年鉴,包含了8472个样本,以面板数据的形式呈现。这些数据对于掌握中国教育态势具有重要的参考价值。
原生js制作拖拽排列排序代码.zip