一、工具介绍
Tcpcopy是一个分布式在线压力测试工具,可以将线上流量拷贝到测试机器,实时的模拟线上环境,达到在程序不上线的情况下实时承担线上流量的效果,尽早发现bug,增加上线信心。
Tcpcopy是由网易技术部于2011年9月开源的一个项目,现在已经更新到0.4版本。
与传统的压力测试工具(如:abench)相比,tcpcopy的最大优势在于其实时及真实性,除了少量的丢包,完全拷贝线上流量到测试机器,真实的模拟线上流量的变化规律。
二、Tcpcopy的原理
1.流程
现在以nginx作为前端说明tcpcopy的原理:
上图中左边是线上前端机,右边是测试前端机。线上前端机开启tcpcopy客户端(tcpcopy进程),测试前端机开启tcpcopy服务端(interception进程),且两台机器上都启动了nginx服务。
Tcpcopy拷贝一次流量访问的步骤如下:
① 一个访问到达线上前端机;
② socket包在ip层被拷贝了一份传给tcpcopy进程;
③ tcpcopy修改包的目的及源地址,发给测试前端机;
④ 拷贝的包到达测试前端机;
⑤ 测试前端机的nginx处理访问,并返回结果;
⑥ 返回结果在ip层被截获、丢弃,由intercpetion拷贝返回结果的ip header返回;
⑦ ip header被发送给线上前端机的tcpcopy进程。
1.代码分析
1) 首先,在链路层或者IP层,在把包交到上一层之前,系统会检查有没进程创建了socket(AF_PACKET,SOCK_DGRAM,…) 或socket(AF_INET,SOCK_RAW,…)等类型的套接字(即原始套接字sock_raw),如果有,这个包就会被复制一份并发送到这个 socket的缓冲区。tcpcopy就是通过这种方式来复制访问流量的。上述的两种抓包方式,前者工作在数据链路层,后者工作在IP层。在 tcpcopy中不同版本所使用的抓包函数不同,在0.3版本中是:
int sock = socket(AF_PACKET,SOCK_RAW,htons(ETH_P_IP));
而在0.4版本中,用的是:
int sock = socket(AF_INET,SOCK_RAW,IPPROTO_TCP);
以上两个函数分别工作在链路层和IP层,前者会把进来和出去的包都抓取到,后者只 抓取到进来的包。
2) Tcpcopy在发送拷贝的数据包的时候,使用了如下socket:
sock = socket(AF_INET, SOCK_RAW,IPPROTO_RAW);
并对这个socket设置了IP_HDRINCL:
setsockopt(sock, IPPROTO_IP, IP_HDRINCL, &n, sizeof(n));
因此网络层不会再增加ip header. 发送之前更改了包的目的ip和端口:
tcp_header->dest = remote_port;
ip_header->daddr = remote_ip;
最后调用sendto函数发送包到测试前端机:
send_len = sendto(sock,(char *)ip_header,tot_len,0,
(struct sockaddr *)&toaddr,sizeof(toaddr));
3) 在测试前端机上加载了ip_queue模块,并设置iptables规则:
iptables -I OUTPUT -p tcp –sport 80 -j QUEUE
复制的访问流量到达测试前端机上的nginx,nginx处理并返回结果,这个结果包在IP层会被前面所设置的iptables规则匹配发往目标 (target)QUEUE。而QUEUE是由ip_queue模块实现。下一步这个匹配包就会被内核经过netlink socket发往用户空间的程 序(在这是tcpcopy的服务端interception进程)。
netlink socket是内核与用户进程之间的一种通信机制,是网络应用程序与内核通信的最常用的接口,可以用来配置网络的各个方面(比如包的过滤)。
interception用如下方式创建netlink socket:
int sock = socket(AF_NETLINK,SOCK_RAW,NETLINK_FIREWALL);
NETLINK_FIREWALL协议有三种消息类型:IPQM_MODE,IPQM_PACKET,IPQM_VERDICT.
内核通过一个IPQM_PACKET消息将刚才截获的返回结果包发送到interception,interception给内核发送一个 IPQM_VERDICT消息告诉内核对这个包的裁决结果(DROP,ACCEPT,etc.)。tcpcopy通过这样的办法将测试前端机上nginx 返回的结果截获丢弃,并由interception返回一个ip header.相应代码实现如下:
拷贝结果包的ip header,发送:
1
2
3
4
5
6
7
8
9
10
11
12
13
|
struct receiver_msg_st msg; ... memset(&msg, 0 ,sizeof(struct receiver_msg_st));
memcpy(( void *) &(msg.ip_header),ip_header,sizeof(struct iphdr));
memcpy(( void *) &(msg.tcp_header),tcp_header,sizeof(struct tcphdr));
... send(sock,( const void *)msg,sizeof(struct receiver_msg_st), 0 );
|
interception向内核发送IPQM_VERDICT消息报告裁决结果:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
struct nlmsghdr* nl_header=(struct nlmsghdr*)buffer; struct ipq_verdict_msg *ver_data = NULL; struct sockaddr_nl addr; nl_header->nlmsg_type=IPQM_VERDICT; nl_header->nlmsg_len=NLMSG_LENGTH(sizeof(struct ipq_verdict_msg)); nl_header->nlmsg_flags=(NLM_F_REQUEST); nl_header->nlmsg_pid=getpid(); nl_header->nlmsg_seq=seq++; ver_data=(struct ipq_verdict_msg *)NLMSG_DATA(nl_header); ver_data->value=NF_DROP; /*如果要accept这个包,则设为NF_ACCEPT)*/
ver_data->id=packet_id; memset(&addr, 0 ,sizeof(addr));
addr.nl_family = AF_NETLINK; addr.nl_pid = 0 ;
addr.nl_groups = 0 ;
sendto(firewall_sock,( void *)nl_header,nl_header->nlmsg_len, 0 ,
(struct sockaddr *)&addr,sizeof(struct sockaddr_nl)); |
内核接收到这个包后将packet_id这个包drop或accept。在后文中可以看到从0.4版本开始的tcpcopy利用这个特点保留了一个 允许访问的ip列表,因为默认情况下访问测试前端机上nginx服务所得到的结果会在ip层被drop掉,造成在80端口上无法访问nginx。有了这个 允许ip列表,即使是刷了iptables规则、起了interception进程,在某些机器上也是可以正常访问测试前端机上的nginx服务的。
三、操作方法
下载地址:http://tcpcopy.googlecode.com/files/tcpcopy-0.3.3.tar.gz,下载tcpcopy源码包后解压,执行常规的./configure;make;make install三部曲即可。
假如有两台机器:
机器A:线上前端机,ip:61.135.xxx.1;
机器B:测试前端机,ip:61.135.xxx.2;
两台机器上都起了nginx服务,操作者在两台机器上都需有sudo权限。
操作步骤:
1. 在B依次执行,
1) 加载ip_queue模块,modprobe ip_queue;
2) 配置iptables规则,sudo iptables -t filter -I OUTPUT -p tcp –sport 80 -j QUEUE;
3) 启动tcpcopy服务端,sudo ./interception & ;
2. 在A上执行,
启动tcpcopy客户端,sudo ./tcpcopy 61.135.xxx.1 80 61.135.xxx.2 80 &;
如果在A上看到“I am booted”,则表示操作成功,tcpcopy已经开始工作,可以查看一下机器B上nginx的日志确认。
四、高级用法
1. 级联
设有线上前端机一台命名A,测试前端机若干B,C,D,……利用tcpcopy可以将A上的访问流量拷贝到B,B拷贝到C,C拷贝到D,……这样就将一份流量放大了多倍,可以用来测试引擎的极限承受能力。
2. 同一tcpcopy实例内多重复制
从0.4版开始,tcpcopy支持在同一个客户端实例复制多份请求到同一个服务端,启动的方式如下(比如要复制2份,使用-n这个选项来控制要复制的份数),
sudo ./tcpcopy 61.135.xxx.1 80 61.135.xxx.2 80;
sudo ./tcpcopy 61.135.xxx.1 80 61.135.xxx.2 80 -n 1;
sudo ./tcpcopy 61.135.xxx.1 80 61.135.xxx.2 80 -n 2;
3. 服务端允许访问ip列表
由于配置了iptables规则,使用tcp协议且源端口号为80的包都会被匹配放到目标QUEUE去,进而被drop掉,因此这个时候测试前端机 上的nginx服务是不可访问的。从0.4版本开始,可以指定一个允许访问ip列表,在列表中的机器上是可以访问测试前端机上的nginx服务的。假如要 添加61.135.xxx.3,61.135.xxx.4到允许ip列表,启动interception时使用如下方式:
sudo ./interception 61.135.xxx.3:61.135.xxx.4;
五、tcpcopy在一淘的应用
一淘引擎在今年2月份时有一次重大的更新,在上线之前,利用tcpcopy把所有前端机的流量拷贝到新的demo前端机上,进行在线模拟实验。引流示例如下图:
所有线上前端机都开启tcpcopy客户端,由于一直报”Message too long”(这是由于packets长度超过1500造成,每分钟差不多有50个)刷屏,所以将stderror重定向,
sudo ./tcpcopy ipA 80 ipB 80 2>/dev/null &
在测试前端机上开启tcpcopy服务端程序interception,并设置iptables规则。
压了大约有一个星期,期间观察qps,load等各项指标是否正常。新引擎单个集群一天的平均qps大约是110,峰值大约240。实验结果显示的 包丢失率大约是(1822213-1797242)/1822213=1.37%. 后来进一步将多个线上前端机的流量引到一个测试前端,测试新引擎的单 集群极限服务能力,qps能达到1000以上, latency大约40ms,达到了上线要求。
Tcpcopy客户端和服务端本身占用的资源较少,不影响在线服务。
13991 root 20 0 160m 77m 888 R 7.7 0.3 71:26.24 tcpcopy
7723 root 15 0 42592 38m 324 S 5.8 0.2 12:14.83 interception
%cpu分别占7.7%和5.8%,物理内存占用分别是77m和38m.
由于几乎完全模拟了线上环境,我们对于新引擎上线更有信心,最终上线圆满成功,实现平稳过渡。现在利用tcpcopy拷贝线上流量作模拟压测已成为我们日常开发上线流程中的一项内容。
六、附录
项目主页:http://code.google.com/p/tcpcopy/;
Sock_raw:http://sock-raw.org/papers/sock_raw;
Netlink:http://smacked.org/docs/netlink.pdf;
相关主题:http://blog.csdn.net/wangbin579/article/category/926096/1 ;
相关推荐
TCPCopy是一款强大的在线压力测试工具,主要用于模拟真实线上环境,帮助开发者在程序未正式上线前发现潜在的性能问题和bug。与传统压力测试工具,如abench相比,TCPCopy的优势在于其实时性和真实性。它能近乎无损地...
线上引流压测工具是针对互联网应用进行性能测试的重要软件,其目标是模拟真实用户流量,检测系统在高并发情况下的稳定性和性能瓶颈。本工具相较于tcpcopy具有更易用和更灵活的特点,且基于Python原生开发,使得它在...
【标题】"利用虾米网引流系列之批量给会员留言推广"主要涉及的是网络推广策略,特别是针对虾米网这一平台。在这个过程中,核心知识点包括网络引流、会员互动以及自动化工具的运用。 网络引流是互联网营销的重要环节...
【连信引流脚本,连信引流工具】是一种在IT领域中常见的自动化营销技术,尤其在社交媒体管理和网络营销中被广泛应用。连信,全称为“连信App”,是一款即时通讯软件,用户可以通过它进行社交互动,而引流脚本则是...
为了达到这个目的,存在专门的软件工具,如“利用虾米网引流系列之批量关注发送站内信.exe”。该软件可以帮助用户自动化批量关注的过程,提升操作效率。 除了批量关注,站内信是另一个提升用户互动的有效手段。站内...
灵魂App是一款基于心灵匹配的社交应用,它通过个性化测试来帮助用户找到志趣相投的朋友。而引流脚本则是为了帮助用户更有效地在平台上推广自己的内容或业务,扩大影响力。 在使用SOUL引流脚本时,首先需要确保拥有...
总结来说,“土豆引流脚本”是一种利用安卓平台和自动化技术,通过模拟用户行为进行营销推广的工具。其工作流程涉及话术设计、APK应用程序的开发和使用,以及对社交平台规则的理解和适应。在使用过程中,应兼顾效率...
如何利用软文营销引流?-微信加好友--.docx
在互联网营销领域,CPA(Cost Per Action)是一种常见的...总之,利用山寨百度网盘源码和高流量论坛进行CPA引流是一种创新的网络营销方法,但需注意合法性、用户体验以及持续优化,才能在竞争激烈的市场中取得成功。
测试环境:nginx+php5.6+mysql5.5 安装就不用说了,一键安装的跟着提示来操作就行!...在线工具网打造和收集各种简单、易用的在线工具大全,做出最简单方便、最干净整洁、最全面完整的在线工具。 仅供学习使用!!!
在互联网营销领域,微信引流是不可或缺的一环,尤其对于企业或个人来说,通过微信平台吸引并扩大用户群体至关重要。这个名为“【微信引流推广单页模板】微信引流分享裂变html代码.zip”的压缩包文件,提供了实现这一...
合理利用百度贴吧的引流方式,可以帮助我们在遵守规则的前提下实现有效的推广。 一、百度贴吧引流的方式 1. 通过话术及小号引流:常见的方式包括利用送资源、送礼品等吸引用户关注并留下联系方式。然而,这类方法...
【标题】"引流_recordoqi_controlk5t_zip_引流_" 暗示这是一个与引流技术相关的代码资源,其中可能包含实现引流功能的程序代码。关键词 "recordoqi" 和 "controlk5t" 可能是特定项目或工具的名称,而 "zip" 表明这些...
总之,QQ人气引流软件是网络营销的一种手段,合理运用可以提升在线知名度,但必须谨慎操作,遵循平台规则,并持续学习和调整策略以适应不断变化的网络环境。通过深入研究提供的文件,我们可以掌握软件的使用技巧,...
【标题】:“php在线工具箱源码 站长引流”指的是基于PHP编程语言开发的一套在线工具集合的源代码,旨在帮助网站管理员吸引流量并优化SEO。 【描述】:“php在线工具箱源码 站长引流”揭示了这个项目的核心目标,即...
正确利用QQ频道引流,可以通过巧妙地选取关键词实现1500人甚至更多私域流量的积累。选择合适的关键词是引流成功的关键,易小北通过演唱会相关的频道成功吸引了大量用户。 2. 选择合适的关键词: 关键词的选择对于...
这样做的目的是为了提供价值,而非单纯地吸引关注。 持续技能分享是一个能够让潜在客户主动接近您的方法。在学习群中,您可以向其他成员展示您在某方面的专业技能,比如快速制作新年个性头像,并承诺为感兴趣的群...
### 小游戏站分享引流绝招1——信息推广引流每日20000ip 在当前互联网竞争激烈的背景下,如何让自己的网站脱颖而出、吸引大量流量成为了一项挑战性的任务。对于棋牌游戏类网站而言,实现这一目标更为不易。本文将...
网页访问密码验证公众号引流代码(部署简单 一目了然) 给网页加个漂亮的密码访问功能 主要用于网页加密,关注公众号回复固定密码访问 密码简单做了下加密,毕竟防不了小人 公众号二维码,密码,提示直接修改放入...