`
jianchen
  • 浏览: 343524 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

timeTunnel的学习

    博客分类:
  • BI
 
阅读更多

采集数据(通过TT的client API):
APP直接写
tailfile
dbsync
dfswriter向HDFS写数据--向云梯写数据格式固定,sequence file,基于key-value
storm从TT读数据,进行实时计算。

TT可以认为是“持久化的队列”,持续的流处理。

TT与datax的比较:
如果把datax做持续的导数据,效果可以与TT等同。
两者各有侧重点,一般可以让datax做一次全量,然后由TT进行增量,最后进行merge。

TT比较关注吞吐量,TPS不高,受限于带宽。

发送给TT的数据,在client端进行进行了压缩,目前用的压缩算法为gzip(大概4倍的压缩比)

TT的接入:
1,需要在日志服务器上安装TT的agent(agent是TT的监控程序),与TT服务器有心跳检测。
2,在TT的配置中心配置日志路径等配置
3,agent启动时,会与中心进行连接读取配置信息。如果本机没有采集进程,则会去下载安装。启动采集程序,读取配置,通过client api与TT进行数据传输,保持长连接。
4,client从router获取broker后,进行直接通信,协议为thrift。broker充当proxy的作用,向hbase写数据,以后存储可以改换成其他的。
5,broker从多个partition读数据,然后merge,返回给client。当然了,client也可以在API中指定访问的具体partition,参数上有控制。

topic对应一张表,多个queue,可以并发写,提高吞吐量。
一张表中可以存储多个应用的数据,通过属性来区分属于哪个应用,可以通过hbase的filter进行查询。
队列对应到分区。
考虑到性能,可以针对表预先建region,减少split提高写的性能。

Rowkey的设计:
sequence:一秒内的计数,后续会将rowkey用字符串的方式来表示,目前是bytes不太可读和维护

目前TT上的表数据会保留三天,以免业务上需要重新读取。
分享到:
评论
2 楼 jianchen 2013-07-25  
u03024218 写道
agent 这个东西在哪里呢?木有看到啊 源码和编译完的都木有呀

agent这个应该使用python写的吧。在开源的tt的代码里应该没有包含这部分吧
1 楼 u03024218 2013-07-18  
agent 这个东西在哪里呢?木有看到啊 源码和编译完的都木有呀

相关推荐

    淘宝技术嘉年华.part2.rar

    9. **TimeTunnel(剑英).pptx**:TimeTunnel可能是一种时间序列数据分析或监控工具。剑英的报告可能探讨了如何利用TimeTunnel进行故障排查、性能分析和业务监控,确保系统稳定运行。 10. **TCon无人值守的性能测试...

    大数据下的数据分析平台架构.pdf

    对于不那么紧急的分析任务,离线分析则更为常见,通过数据采集工具如Scribe、Kafka、Timetunnel和Chukwa将数据导入Hadoop系统进行处理。 数据量的大小也是选择分析架构的重要因素。内存级别分析适用于数据量较小,...

    飞行棋java飞行棋java

    - 遍历 `luckyTurn`, `landMine`, `pause`, `timeTunnel` 数组,分别设置对应的 `map` 数组值。 - **`getGraph(int i, int index, int playerPos1, int playerPos2)`** - 功能:根据当前格子的状态返回对应的图形...

    大数据下的数据分析平台架构 (2).pdf

    数据采集工具如Facebook的Scribe、LinkedIn的Kafka、淘宝的Timetunnel和Hadoop的Chukwa可用于数据导入和传输至Hadoop系统。 (二) 数据量级别及对应分析架构 1. 内存级别:适用于数据量较小的情况,可使用内存...

    安防与监控中的视频监控落地四要素:预测、检测、报警及定位

    技术实现中,Goldeneye利用TimeTunnel进行日志采集,jstorm和ODPS MR job处理实时和批量数据,而HBase作为存储层。阈值预测、监控检测、报警生成和定位等功能则基于历史数据分析和智能算法模型,实现对业务监控的...

    大数据下的数据分析平台架构.docx

    这类分析通常通过数据采集工具,如Facebook的Scribe、LinkedIn的Kafka、淘宝的Timetunnel和Hadoop的Chukwa,将数据导入Hadoop平台进行处理。 2. **按数据量划分**: - 内存级别:数据量小于集群总内存,可通过内存...

    大数据技术22.pptx

    在淘宝等应用场景中,Storm常与MetaQ、Timetunnel、HBase和UPS等其他组件结合,用于实时日志处理、实时统计、实时风控和实时推荐等任务,能够处理TB级别的实时消息。 【总结】 大数据技术的发展推动了各行各业的...

    播放量增加逻辑供学习交流.zip

    脚本执行以下任务:导入必要的库(re、requests、time、math、random、uuid、json)。定义一个get_tunnel_proxies()函数来配置代理设置(代理设置当前未实现,需要手动配置)。定义一个b_lsid()函数来生成b_lsid值。...

    SipTunnel-开源

    同时,RTP(Real-time Transport Protocol)数据报,通常与SIP一起用于传输音频和视频流,也可以通过SipTunnel的这种方式实现穿越NAT。 SipTunnel的开源特性意味着其源代码对公众开放,开发者可以查看、学习、修改...

    最完整的计算机中的常用英语单词大全

    * Access time:存取时间 * Analog signals:模拟信号 * Applets:程序 * Asynchronous communications port:异步通信端口 * Attachment:附件 二、计算机软件相关词汇 * Advanced application:高级应用 * ...

    海量数据处理平台体系架构分析

    为了适应大规模数据采集的需求,互联网公司开发了一系列高性能的开源工具,如Facebook的Scribe、LinkedIn的Kafka、淘宝的TimeTunnel以及Hadoop的Chukwa等。 - **Chukwa**:Chukwa是一个基于Hadoop的HDFS和Map/...

    神州数据交换机vlan 和mac地址命令

    ##### 2.1.5 mac-address-table aging-time 设置MAC地址表的老化时间。老化时间决定了动态学习的MAC地址条目在没有活动的情况下自动删除的时间。 ##### 2.1.6 mac-address-table static | static-multicast | ...

    扬州中学2014届高中三年级下学期4月阶段测试.doc

    如“finite”(有限的)、“solar heating device”(太阳能加热设备)、“cross”(十字架)、“profit”(利润)、“occasion”(场合)、“light at the end of the tunnel”(隧道尽头的光)等,这些都是日常...

    计算机专业英语词汇

    * Access time:存取时间,指的是计算机从存储器中读取数据所需的时间。 * Accuracy:准确性,指的是计算机中的数据处理精度。 二、计算机网络 * Agents:代理,指的是计算机网络中的一种智能程序,能够自动完成...

    U2000网管操作培训-PTN.pptx

    - **CES(Circuit Emulation Service,电路仿真服务)**是一种在分组交换网络上传输传统电路交换业务的技术,如TDM(Time Division Multiplexing,时分复用)业务。 - **配置要点**: - **接口配置**:设置PTN设备...

    149-OVS VxLAN Flow 分析1

    table 10 flow rule 的含义为: 学习外部(从 tunnel)进来的包,往 table 20 中添加对返程包的正常转发规则,然后从 port 1(patch-int)扔给 br-int。 OVS 中的 VxLAN Flow 规则是控制数据流向的关键组件,今天...

    2015年高考英语二轮专题限时训练(2)名词与冠词(2)

    【名词与冠词】在英语中,...通过这些题目,我们可以看到名词和冠词在不同语境下的正确使用方式,这对于英语学习,尤其是备考高考的学生来说至关重要。熟悉这些规则和用法有助于提高阅读理解、写作和口语表达的准确性。

Global site tag (gtag.js) - Google Analytics