`
sunqi
  • 浏览: 230995 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

TCP消息的接收(转)

 
阅读更多
这篇文章将试图说明应用程序如何接收网络上发送过来的TCP消息流,由于篇幅所限,暂时忽略ACK报文的回复和接收窗口的滑动。
为了快速掌握本文所要表达的思想,我们可以带着以下问题阅读:
1、应用程序调用read、recv等方法时,socket套接字可以设置为阻塞或者非阻塞,这两种方式是如何工作的?
2、若socket为默认的阻塞套接字,此时recv方法传入的len参数,是表示必须超时(SO_RCVTIMEO)或者接收到len长度的消息,recv方法才会返回吗?而且,socket上可以设置一个属性叫做SO_RCVLOWAT,它会与len产生什么样的交集,又是决定recv等接收方法什么时候返回?
3、应用程序开始收取TCP消息,与程序所在的机器网卡上接收到网络里发来的TCP消息,这是两个独立的流程。它们之间是如何互相影响的?例如,应用程序正在收取消息时,内核通过网卡又在这条TCP连接上收到消息时,究竟是如何处理的?若应用程序没有调用read或者recv时,内核收到TCP连接上的消息后又是怎样处理的?
4、recv这样的接收方法还可以传入各种flags,例如MSG_WAITALL、MSG_PEEK、MSG_TRUNK等等。它们是如何工作的?
5、1个socket套接字可能被多个进程在使用,出现并发访问时,内核是怎么处理这种状况的?
6、linux的sysctl系统参数中,有类似tcp_low_latency这样的开关,默认为0或者配置为1时是如何影响TCP消息处理流程的?
 
 
书接上文。本文将通过三幅图讲述三种典型的接收TCP消息场景,理清内核为实现TCP消息的接收所实现的4个队列容器。当然,了解内核的实现并不是目的,而是如何使用socket接口、如何配置操作系统内核参数,才能使TCP传输消息更高效,这才是最终目的。
 
很多同学不希望被内核代码扰乱了思维,如何阅读本文呢?
我会在图1的步骤都介绍完了才来从代码上说明tcp_v4_rcv等主要方法。像flags参数、非阻塞套接字会产生怎样的效果我是在代码介绍中说的。然后我会介绍图2、图3,介绍它们的步骤时我会穿插一些上文没有涉及的少量代码。不喜欢了解内核代码的同学请直接看完图1的步骤后,请跳到图2、图3中,我认为这3幅图覆盖了主要的TCP接收场景,能够帮助你理清其流程。
 
接收消息时调用的系统方法要比上一篇发送TCP消息复杂许多。接收TCP消息的过程可以一分为二:首先是PC上的网卡接收到网线传来的报文,通过软中断内核拿到并且解析其为TCP报文,然后TCP模块决定如何处理这个TCP报文。其次,用户进程调用read、recv等方法获取TCP消息,则是将内核已经从网卡上收到的消息流拷贝到用户进程里的内存中。
 
第一幅图描述的场景是,TCP连接上将要收到的消息序号是S1(TCP上的每个报文都有序号,详见《TCP/IP协议详解》),此时操作系统内核依次收到了序号S1-S2的报文、S3-S4、S2-S3的报文,注意后两个包乱序了。之后,用户进程分配了一段len大小的内存用于接收TCP消息,此时,len是大于S4-S1的。另外,用户进程始终没有对这个socket设置过SO_RCVLOWAT参数,因此,接收阀值SO_RCVLOWAT使用默认值1。另外,系统参数tcp_low_latency设置为0,即从操作系统的总体效率出发,使用prequeue队列提升吞吐量。当然,由于用户进程收消息时,并没有新包来临,所以此图中prequeue队列始终为空。先不细表。
图1如下:
alt
上图中有13个步骤,应用进程使用了阻塞套接字,调用recv等方法时flag标志位为0,用户进程读取套接字时没有发生进程睡眠。内核在处理接收到的TCP报文时使用了4个队列容器(当链表理解也可),分别为receive、out_of_order、prequeue、backlog队列,本文会说明它们存在的意义。下面详细说明这13个步骤。
1、当网卡接收到报文并判断为TCP协议后,将会调用到内核的tcp_v4_rcv方法。此时,这个TCP连接上需要接收的下一个报文序号恰好就是S1,而这一步里,网卡上收到了S1-S2的报文,所以,tcp_v4_rcv方法会把这个报文直接插入到receive队列中。
注意:receive队列是允许用户进程直接读取的,它是将已经接收到的TCP报文,去除了TCP头部、排好序放入的、用户进程可以直接按序读取的队列。由于socket不在进程上下文中(也就是没有进程在读socket),由于我们需要S1序号的报文,而恰好收到了S1-S2报文,因此,它进入了receive队列。
 
2、接着,我们收到了S3-S4报文。在第1步结束后,这时我们需要收到的是S2序号,但到来的报文却是S3打头的,怎么办呢?进入out_of_order队列!从这个队列名称就可以看出来,所有乱序的报文都会暂时放在这。
 
3、仍然没有进入来读取socket,但又过来了我们期望的S2-S3报文,它会像第1步一样,直接进入receive队列。不同的时,由于此时out_of_order队列不像第1步是空的,所以,引发了接来的第4步。
 
4、每次向receive队列插入报文时都会检查out_of_order队列。由于收到S2-S3报文后,期待的序号成为了S3,这样,out_of_order队列里的唯一报文S3-S4报文将会移出本队列而插入到receive队列中(这件事由tcp_ofo_queue方法完成)。
 
5、终于有用户进程开始读取socket了。做过应用端编程的同学都知道,先要在进程里分配一块内存,接着调用read或者recv等方法,把内存的首地址和内存长度传入,再把建立好连接的socket也传入。当然,对这个socket还可以配置其属性。这里,假定没有设置任何属性,都使用默认值,因此,此时socket是阻塞式,它的SO_RCVLOWAT是默认的1。当然,recv这样的方法还会接收一个flag参数,它可以设置为MSG_WAITALL、MSG_PEEK、MSG_TRUNK等等,这里我们假定为最常用的0。进程调用了recv方法。
 
6、无论是何种接口,C库和内核经过层层封装,接收TCP消息最终一定会走到tcp_recvmsg方法。下面介绍代码细节时,它会是重点。
 
7、在tcp_recvmsg方法里,会首先锁住socket。为什么呢?因此socket是可以被多进程同时使用的,同时,内核中断也会操作它,而下面的代码都是核心的、操作数据的、有状态的代码,不可以被重入的,锁住后,再有用户进程进来时拿不到锁就要休眠在这了。内核中断看到被锁住后也会做不同的处理,参见图2、图3。
 
8、此时,第1-4步已经为receive队列里准备好了3个报文。最上面的报文是S1-S2,将它拷贝到用户态内存中。由于第5步flag参数并没有携带MSG_PEEK这样的标志位,因此,再将S1-S2报文从receive队列的头部移除,从内核态释放掉。反之,MSG_PEEK标志位会导致receive队列不会删除报文。所以,MSG_PEEK主要用于多进程读取同一套接字的情形。
 
9、如第8步,拷贝S2-S3报文到用户态内存中。当然,执行拷贝前都会检查用户态内存的剩余空间是否足以放下当前这个报文,不足以时会直接返回已经拷贝的字节数。
10、同上。
 
11、receive队列为空了,此时会先来检查SO_RCVLOWAT这个阀值。如果已经拷贝的字节数到现在还小于它,那么可能导致进程会休眠,等待拷贝更多的数据。第5步已经说明过了,socket套接字使用的默认的SO_RCVLOWAT,也就是1,这表明,只要读取到报文了,就认为可以返回了。
做完这个检查了,再检查backlog队列。backlog队列是进程正在拷贝数据时,网卡收到的报文会进这个队列。此时若backlog队列有数据,就顺带处理下。图3会覆盖这种场景。
 
12、在本图对应的场景中,backlog队列是没有数据的,已经拷贝的字节数为S4-S1,它是大于1的,因此,释放第7步里加的锁,准备返回用户态了。
 
13、用户进程代码开始执行,此时recv等方法返回的就是S4-S1,即从内核拷贝的字节数。
 
 
图1描述的场景是最简单的1种场景,下面我们来看看上述步骤是怎样通过内核代码实现的(以下代码为2.6.18内核代码)。
 
 
我们知道,linux对中断的处理是分为上半部和下半部的,这是处于系统整体效率的考虑。我们将要介绍的都是在网络软中断的下半部里,例如这个tcp_v4_rcv方法。图1中的第1-4步都是在这个方法里完成的。
[cpp] view plaincopy
 
  1. int tcp_v4_rcv(struct sk_buff *skb)  
  2. {  
  3.         ... ...  
  4.     //是否有进程正在使用这个套接字,将会对处理流程产生影响  
  5.         //或者从代码层面上,只要在tcp_recvmsg里,执行lock_sock后只能进入else,而release_sock后会进入if  
  6.     if (!sock_owned_by_user(sk)) {  
  7.         {  
  8.             //当 tcp_prequeue 返回0时,表示这个函数没有处理该报文  
  9.             if (!tcp_prequeue(sk, skb))//如果报文放在prequeue队列,即表示延后处理,不占用软中断过长时间  
  10.                 ret = tcp_v4_do_rcv(sk, skb);//不使用prequeue或者没有用户进程读socket时(图3进入此分支),立刻开始处理这个报文  
  11.         }  
  12.     } else  
  13.         sk_add_backlog(sk, skb);//如果进程正在操作套接字,就把skb指向的TCP报文插入到backlog队列(图3涉及此分支)  
  14.         ... ...  
  15. }  

图1第1步里,我们从网络上收到了序号为S1-S2的包。此时,没有用户进程在读取套接字,因此,sock_owned_by_user(sk)会返回0。所以,tcp_prequeue方法将得到执行。简单看看它:
[cpp] view plaincopy
 
  1. static inline int tcp_prequeue(struct sock *sk, struct sk_buff *skb)  
  2. {  
  3.     struct tcp_sock *tp = tcp_sk(sk);  
  4.   
  5.     //检查tcp_low_latency,默认其为0,表示使用prequeue队列。tp->ucopy.task不为0,表示有进程启动了拷贝TCP消息的流程  
  6.     if (!sysctl_tcp_low_latency && tp->ucopy.task) {  
  7.         //到这里,通常是用户进程读数据时没读到指定大小的数据,休眠了。直接将报文插入prequeue队列的末尾,延后处理  
  8.         __skb_queue_tail(&tp->ucopy.prequeue, skb);  
  9.         tp->ucopy.memory += skb->truesize;  
  10.         //当然,虽然通常是延后处理,但如果TCP的接收缓冲区不够用了,就会立刻处理prequeue队列里的所有报文  
  11.         if (tp->ucopy.memory > sk->sk_rcvbuf) {  
  12.             while ((skb1 = __skb_dequeue(&tp->ucopy.prequeue)) != NULL) {  
  13.                                 //sk_backlog_rcv就是下文将要介绍的tcp_v4_do_rcv方法  
  14.                 sk->sk_backlog_rcv(sk, skb1);  
  15.             }  
  16.         } else if (skb_queue_len(&tp->ucopy.prequeue) == 1) {  
  17.                         //prequeue里有报文了,唤醒正在休眠等待数据的进程,让进程在它的上下文中处理这个prequeue队列的报文  
  18.             wake_up_interruptible(sk->sk_sleep);  
  19.         }  
  20.   
  21.         return 1;  
  22.     }  
  23.     //prequeue没有处理  
  24.     return 0;  
  25. }  

由于tp->ucopy.task此时是NULL,所以我们收到的第1个报文在tcp_prequeue函数里直接返回了0,因此,将由 tcp_v4_do_rcv方法处理。
[cpp] view plaincopy
 
  1. int tcp_v4_do_rcv(struct sock *sk, struct sk_buff *skb)  
  2. {  
  3.     if (sk->sk_state == TCP_ESTABLISHED) { /* Fast path */  
  4.         //当TCP连接已经建立好时,是由tcp_rcv_established方法处理接收报文的  
  5.         if (tcp_rcv_established(sk, skb, skb->h.th, skb->len))  
  6.             goto reset;  
  7.   
  8.         return 0;  
  9.     }  
  10.         ... ...  
  11. }  

tcp_rcv_established方法在图1里,主要调用tcp_data_queue方法将报文放入队列中,继续看看它又干了些什么事:
[cpp] view plaincopy
 
  1. static void tcp_data_queue(struct sock *sk, struct sk_buff *skb)  
  2. {  
  3.     struct tcp_sock *tp = tcp_sk(sk);  
  4.   
  5.     //如果这个报文是待接收的报文(看seq),它有两个出路:进入receive队列,正如图1;直接拷贝到用户内存中,如图3  
  6.     if (TCP_SKB_CB(skb)->seq == tp->rcv_nxt) {  
  7.                 //滑动窗口外的包暂不考虑,篇幅有限,下次再细谈  
  8.         if (tcp_receive_window(tp) == 0)  
  9.             goto out_of_window;  
  10.   
  11.         //如果有一个进程正在读取socket,且正准备要拷贝的序号就是当前报文的seq序号  
  12.         if (tp->ucopy.task == current &&  
  13.             tp->copied_seq == tp->rcv_nxt && tp->ucopy.len &&  
  14.             sock_owned_by_user(sk) && !tp->urg_data) {  
  15.             //直接将报文内容拷贝到用户态内存中,参见图3  
  16.             if (!skb_copy_datagram_iovec(skb, 0, tp->ucopy.iov, chunk)) {  
  17.                 tp->ucopy.len -= chunk;  
  18.                 tp->copied_seq += chunk;  
  19.             }  
  20.         }  
  21.   
  22.         if (eaten <= 0) {  
  23. queue_and_out:  
  24.                         //如果没有能够直接拷贝到用户内存中,那么,插入receive队列吧,正如图1中的第1、3步  
  25.             __skb_queue_tail(&sk->sk_receive_queue, skb);  
  26.         }  
  27.                 //更新待接收的序号,例如图1第1步中,更新为S2  
  28.         tp->rcv_nxt = TCP_SKB_CB(skb)->end_seq;  
  29.   
  30.                 //正如图1第4步,这时会检查out_of_order队列,若它不为空,需要处理它  
  31.         if (!skb_queue_empty(&tp->out_of_order_queue)) {  
  32.                         //tcp_ofo_queue方法会检查out_of_order队列中的所有报文  
  33.             tcp_ofo_queue(sk);  
  34.         }  
  35.     }  
  36.         ... ...  
  37.   
  38.     //这个包是无序的,又在接收滑动窗口内,那么就如图1第2步,把报文插入到out_of_order队列吧  
  39.     if (!skb_peek(&tp->out_of_order_queue)) {  
  40.         __skb_queue_head(&tp->out_of_order_queue,skb);  
  41.     } else {  
  42.                     ... ...  
  43.             __skb_append(skb1, skb, &tp->out_of_order_queue);  
  44.     }  
  45. }  

图1第4步时,正是通过tcp_ofo_queue方法把之前乱序的S3-S4报文插入receive队列的。
[cpp] view plaincopy
 
  1. static void tcp_ofo_queue(struct sock *sk)  
  2. {  
  3.     struct tcp_sock *tp = tcp_sk(sk);  
  4.     __u32 dsack_high = tp->rcv_nxt;  
  5.     struct sk_buff *skb;  
  6.         //遍历out_of_order队列  
  7.     while ((skb = skb_peek(&tp->out_of_order_queue)) != NULL) {  
  8.         ... ...  
  9.                 //若这个报文可以按seq插入有序的receive队列中,则将其移出out_of_order队列  
  10.         __skb_unlink(skb, &tp->out_of_order_queue);  
  11.                 //插入receive队列  
  12.         __skb_queue_tail(&sk->sk_receive_queue, skb);  
  13.                 //更新socket上待接收的下一个有序seq  
  14.         tp->rcv_nxt = TCP_SKB_CB(skb)->end_seq;  
  15.     }  
  16. }  
下面再介绍图1第6步提到的tcp_recvmsg方法。
[cpp] view plaincopy
 
  1. //参数里的len就是read、recv方法里的内存长度,flags正是方法的flags参数,nonblock则是阻塞、非阻塞标志位  
  2. int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,  
  3.         size_t len, int nonblock, int flags, int *addr_len)  
  4. {  
  5.     //锁住socket,防止多进程并发访问TCP连接,告知软中断目前socket在进程上下文中  
  6.     lock_sock(sk);  
  7.   
  8.         //初始化errno这个错误码  
  9.     err = -ENOTCONN;  
  10.   
  11.     //如果socket是阻塞套接字,则取出SO_RCVTIMEO作为读超时时间;若为非阻塞,则timeo为0。下面会看到timeo是如何生效的  
  12.     timeo = sock_rcvtimeo(sk, nonblock);  
  13.   
  14.     //获取下一个要拷贝的字节序号  
  15.     //注意:seq的定义为u32 *seq;,它是32位指针。为何?因为下面每向用户态内存拷贝后,会更新seq的值,这时就会直接更改套接字上的copied_seq  
  16.     seq = &tp->copied_seq;  
  17.     //当flags参数有MSG_PEEK标志位时,意味着这次拷贝的内容,当再次读取socket时(比如另一个进程)还能再次读到  
  18.     if (flags & MSG_PEEK) {  
  19.         //所以不会更新copied_seq,当然,下面会看到也不会删除报文,不会从receive队列中移除报文  
  20.         peek_seq = tp->copied_seq;  
  21.         seq = &peek_seq;  
  22.     }  
  23.   
  24.     //获取SO_RCVLOWAT最低接收阀值,当然,target实际上是用户态内存大小len和SO_RCVLOWAT的最小值  
  25.     //注意:flags参数中若携带MSG_WAITALL标志位,则意味着必须等到读取到len长度的消息才能返回,此时target只能是len  
  26.     target = sock_rcvlowat(sk, flags & MSG_WAITALL, len);  
  27.   
  28.         //以下开始读取消息  
  29.     do {  
  30.         //从receive队列取出1个报文  
  31.         skb = skb_peek(&sk->sk_receive_queue);  
  32.         do {  
  33.             //没取到退出当前循环  
  34.             if (!skb)  
  35.                 break;  
  36.   
  37.   
  38.             //offset是待拷贝序号在当前这个报文中的偏移量,在图1、2、3中它都是0,只有因为用户内存不足以接收完1个报文时才为非0  
  39.             offset = *seq - TCP_SKB_CB(skb)->seq;  
  40.             //有些时候,三次握手的SYN包也会携带消息内容的,此时seq是多出1的(SYN占1个序号),所以offset减1  
  41.             if (skb->h.th->syn)  
  42.                 offset--;  
  43.             //若偏移量还有这个报文之内,则认为它需要处理  
  44.             if (offset < skb->len)  
  45.                 goto found_ok_skb;  
  46.   
  47.             skb = skb->next;  
  48.         } while (skb != (struct sk_buff *)&sk->sk_receive_queue);  
  49.   
  50.         //如果receive队列为空,则检查已经拷贝的字节数,是否达到了SO_RCVLOWAT或者长度len。满足了,且backlog队列也为空,则可以返回用户态了,正如图1的第11步  
  51.         if (copied >= target && !sk->sk_backlog.tail)  
  52.             break;  
  53.   
  54.                 //在tcp_recvmsg里,copied就是已经拷贝的字节数  
  55.         if (copied) {  
  56.             ... ...  
  57.         } else {  
  58.                         //一个字节都没拷贝到,但如果shutdown关闭了socket,一样直接返回。当然,本文不涉及关闭连接  
  59.             if (sk->sk_shutdown & RCV_SHUTDOWN)  
  60.                 break;  
  61.   
  62.             //如果使用了非阻塞套接字,此时timeo为0  
  63.             if (!timeo) {  
  64.                                 //非阻塞套接字读取不到数据时也会返回,错误码正是EAGAIN  
  65.                 copied = -EAGAIN;  
  66.                 break;  
  67.             }  
  68.                         ... ...  
  69.         }  
  70.   
  71.         //tcp_low_latency默认是关闭的,图1、图2都是如此,图3则例外,即图3不会走进这个if  
  72.         if (!sysctl_tcp_low_latency && tp->ucopy.task == user_recv) {  
  73.             //prequeue队列就是为了提高系统整体效率的,即prequeue队列有可能不为空,这是因为进程休眠等待时可能有新报文到达prequeue队列  
  74.             if (!skb_queue_empty(&tp->ucopy.prequeue))  
  75.                 goto do_prequeue;  
  76.         }  
  77.   
  78.         //如果已经拷贝了的字节数超过了最低阀值  
  79.         if (copied >= target) {  
  80.             //release_sock这个方法会遍历、处理backlog队列中的报文  
  81.             release_sock(sk);  
  82.             lock_sock(sk);  
  83.         } else  
  84.             sk_wait_data(sk, &timeo);//没有读取到足够长度的消息,因此会进程休眠,如果没有被唤醒,最长睡眠timeo时间  
  85.   
  86.         if (user_recv) {  
  87.             if (tp->rcv_nxt == tp->copied_seq &&  
  88.                 !skb_queue_empty(&tp->ucopy.prequeue)) {  
  89. do_prequeue:  
  90.                                 //接上面代码段,开始处理prequeue队列里的报文  
  91.                 tcp_prequeue_process(sk);  
  92.             }  
  93.         }  
  94.   
  95.         //继续处理receive队列的下一个报文  
  96.         continue;  
  97.   
  98.     found_ok_skb:  
  99.         /* Ok so how much can we use? */  
  100.         //receive队列的这个报文从其可以使用的偏移量offset,到总长度len之间,可以拷贝的长度为used  
  101.         used = skb->len - offset;  
  102.         //len是用户态空闲内存,len更小时,当然只能拷贝len长度消息,总不能导致内存溢出吧  
  103.         if (len < used)  
  104.             used = len;  
  105.   
  106.         //MSG_TRUNC标志位表示不要管len这个用户态内存有多大,只管拷贝数据吧  
  107.         if (!(flags & MSG_TRUNC)) {  
  108.             {  
  109.                 //向用户态拷贝数据  
  110.                 err = skb_copy_datagram_iovec(skb, offset,  
  111.                         msg->msg_iov, used);  
  112.             }  
  113.         }  
  114.   
  115.         //因为是指针,所以同时更新copied_seq--下一个待接收的序号  
  116.         *seq += used;  
  117.         //更新已经拷贝的长度  
  118.         copied += used;  
  119.         //更新用户态内存的剩余空闲空间长度  
  120.         len -= used;  
  121.   
  122.                 ... ...  
  123.     } while (len > 0);  
  124.   
  125.     //已经装载了接收器  
  126.     if (user_recv) {  
  127.         //prequeue队列不为空则处理之  
  128.         if (!skb_queue_empty(&tp->ucopy.prequeue)) {  
  129.             tcp_prequeue_process(sk);  
  130.         }  
  131.   
  132.         //准备返回用户态,socket上不再装载接收任务  
  133.         tp->ucopy.task = NULL;  
  134.         tp->ucopy.len = 0;  
  135.     }  
  136.   
  137.     //释放socket时,还会检查、处理backlog队列中的报文  
  138.     release_sock(sk);  
  139.     //向用户返回已经拷贝的字节数  
  140.     return copied;  
  141. }  
图2给出了第2种场景,这里涉及到prequeue队列。用户进程调用recv方法时,连接上没有任何接收并缓存到内核的报文,而socket是阻塞的,所以进程睡眠了。然后网卡中收到了TCP连接上的报文,此时prequeue队列开始产生作用。图2中tcp_low_latency为默认的0,套接字socket的SO_RCVLOWAT是默认的1,仍然是阻塞socket,如下图:
alt
简单描述上述11个步骤:
1、用户进程分配了一块len大小的内存,将其传入recv这样的函数,同时socket参数皆为默认,即阻塞的、SO_RCVLOWAT为1。调用接收方法,其中flags参数为0。
 
2、C库和内核最终调用到tcp_recvmsg方法来处理。
 
3、锁住socket。
 
4、由于此时receive、prequeue、backlog队列都是空的,即没有拷贝1个字节的消息到用户内存中,而我们的最低要求是拷贝至少SO_RCVLOWAT为1长度的消息。此时,开始进入阻塞式套接字的等待流程。最长等待时间为SO_RCVTIMEO指定的时间。
这个等待函数叫做sk_wait_data,有必要看下其实现:
[cpp] view plaincopy
 
  1. int sk_wait_data(struct sock *sk, long *timeo)  
  2. {  
  3.         //注意,它的自动唤醒条件有两个,要么timeo时间到达,要么receive队列不为空  
  4.     rc = sk_wait_event(sk, timeo, !skb_queue_empty(&sk->sk_receive_queue));  
  5. }  

sk_wait_event也值得我们简单看下:
[cpp] view plaincopy
 
  1. #define sk_wait_event(__sk, __timeo, __condition)       \  
  2. ({  int rc;                         \  
  3.     release_sock(__sk);                 \  
  4.     rc = __condition;                   \  
  5.     if (!rc) {                      \  
  6.         *(__timeo) = schedule_timeout(*(__timeo));  \  
  7.     }                           \  
  8.     lock_sock(__sk);                    \  
  9.     rc = __condition;                   \  
  10.     rc;                         \  
  11. })  

注意,它在睡眠前会调用release_sock,这个方法会释放socket锁,使得下面的第5步中,新到的报文不再只能进入backlog队列。
 
5、这个套接字上期望接收的序号也是S1,此时网卡恰好收到了S1-S2的报文,在tcp_v4_rcv方法中,通过调用tcp_prequeue方法把报文插入到prequeue队列中。
 
6、插入prequeue队列后,此时会接着调用wake_up_interruptible方法,唤醒在socket上睡眠的进程。参见tcp_prequque方法。
 
7、用户进程被唤醒后,重新调用lock_sock接管了这个socket,此后再进来的报文都只能进入backlog队列了。
 
8、进程醒来后,先去检查receive队列,当然仍然是空的;再去检查prequeue队列,发现有一个报文S1-S2,正好是socket连接待拷贝的起始序号S1,于是,从prequeue队列中取出这个报文并把内容复制到用户内存中,再释放内核中的这个报文。
 
9、目前已经拷贝了S2-S1个字节到用户态,检查这个长度是否超过了最低阀值(即len和SO_RCVLOWAT的最小值)。
 
10、由于SO_RCVLOWAT使用了默认的1,所以准备返回用户。此时会顺带再看看backlog队列中有没有数据,若有,则检查这个无序的队列中是否有可以直接拷贝给用户的报文。当然,此时是没有的。所以准备返回,释放socket锁。
 
11、返回用户已经拷贝的字节数。
 
图3给出了第3种场景。这个场景中,我们把系统参数tcp_low_latency设为1,socket上设置了SO_RCVLOWAT属性的值。服务器先是收到了S1-S2这个报文,但S2-S1的长度是小于SO_RCVLOWAT的,用户进程调用recv方法读套接字时,虽然读到了一些,但没有达到最小阀值,所以进程睡眠了,与此同时,在睡眠前收到的乱序的S3-S4包直接进入backlog队列。此时先到达了S2-S3包,由于没有使用prequeue队列,而它起始序号正是下一个待拷贝的值,所以直接拷贝到用户内存中,总共拷贝字节数已满足SO_RCVLOWAT的要求!最后在返回用户前把backlog队列中S3-S4报文也拷贝给用户了。如下图:
alt
简明描述上述15个步骤:
1、内核收到报文S1-S2,S1正是这个socket连接上待接收的序号,因此,直接将它插入有序的receive队列中。
 
2、用户进程所处的linux操作系统上,将sysctl中的tcp_low_latency设置为1。这意味着,这台服务器希望TCP进程能够更及时的接收到TCP消息。用户调用了recv方法接收socket上的消息,这个socket上设置了SO_RCVLOWAT属性为某个值n,这个n是大于S2-S1,也就是第1步收到的报文大小。这里,仍然是阻塞socket,用户依然是分配了足够大的len长度内存以接收TCP消息。
 
3、通过tcp_recvmsg方法来完成接收工作。先锁住socket,避免并发进程读取同一socket的同时,也在告诉内核网络软中断处理到这一socket时要有不同行为,如第6步。
 
4、准备处理内核各个接收队列中的报文。
 
5、receive队列中的有序报文可直接拷贝,在检查到S2-S1是小于len之后,将报文内容拷贝到用户态内存中。
 
6、在第5步进行的同时,socket是被锁住的,这时内核又收到了一个S3-S4报文,因此报文直接进入backlog队列。注意,这个报文不是有序的,因为此时连接上期待接收序号为S2。
 
7、在第5步,拷贝了S2-S1个字节到用户内存,它是小于SO_RCVLOWAT的,因此,由于socket是阻塞型套接字(超时时间在本文中忽略),进程将不得不转入睡眠。转入睡眠之前,还会干一件事,就是处理backlog队列里的报文,图2的第4步介绍过休眠方法sk_wait_data,它在睡眠前会执行release_sock方法,看看是如何实现的:
[cpp] view plaincopy
 
  1. void fastcall release_sock(struct sock *sk)  
  2. {  
  3.     mutex_release(&sk->sk_lock.dep_map, 1, _RET_IP_);  
  4.   
  5.     spin_lock_bh(&sk->sk_lock.slock);  
  6.         //这里会遍历backlog队列中的每一个报文  
  7.     if (sk->sk_backlog.tail)  
  8.         __release_sock(sk);  
  9.         //这里是网络中断执行时,告诉内核,现在socket并不在进程上下文中  
  10.     sk->sk_lock.owner = NULL;  
  11.     if (waitqueue_active(&sk->sk_lock.wq))  
  12.         wake_up(&sk->sk_lock.wq);  
  13.     spin_unlock_bh(&sk->sk_lock.slock);  
  14. }  

再看看__release_sock方法是如何遍历backlog队列的:
[cpp] view plaincopy
 
  1. static void __release_sock(struct sock *sk)  
  2. {  
  3.     struct sk_buff *skb = sk->sk_backlog.head;  
  4.   
  5.         //遍历backlog队列  
  6.     do {  
  7.         sk->sk_backlog.head = sk->sk_backlog.tail = NULL;  
  8.         bh_unlock_sock(sk);  
  9.   
  10.         do {  
  11.             struct sk_buff *next = skb->next;  
  12.   
  13.             skb->next = NULL;  
  14.                         //处理报文,其实就是tcp_v4_do_rcv方法,上文介绍过,不再赘述  
  15.             sk->sk_backlog_rcv(sk, skb);  
  16.   
  17.             cond_resched_softirq();  
  18.   
  19.             skb = next;  
  20.         } while (skb != NULL);  
  21.   
  22.         bh_lock_sock(sk);  
  23.     } while((skb = sk->sk_backlog.head) != NULL);  
  24. }  

此时遍历到S3-S4报文,但因为它是失序的,所以从backlog队列中移入out_of_order队列中(参见上文说过的tcp_ofo_queue方法)。
 
8、进程休眠,直到超时或者receive队列不为空。
 
9、内核接收到了S2-S3报文。注意,这里由于打开了tcp_low_latency标志位,这个报文是不会进入prequeue队列以待进程上下文处理的。
 
10、此时,由于S2是连接上正要接收的序号,同时,有一个用户进程正在休眠等待接收数据中,且它要等待的数据起始序号正是S2,于是,这种种条件下,使得这一步同时也是网络软中断执行上下文中,把S2-S3报文直接拷贝进用户内存。
 
11、上文介绍tcp_data_queue方法时大家可以看到,每处理完1个有序报文(无论是拷贝到receive队列还是直接复制到用户内存)后都会检查out_of_order队列,看看是否有报文可以处理。那么,S3-S4报文恰好是待处理的,于是拷贝进用户内存。然后唤醒用户进程。
 
12、用户进程被唤醒了,当然唤醒后会先来拿到socket锁。以下执行又在进程上下文中了。
 
13、此时会检查已拷贝的字节数是否大于SO_RCVLOWAT,以及backlog队列是否为空。两者皆满足,准备返回。
 
14、释放socket锁,退出tcp_recvmsg方法。
 
15、返回用户已经复制的字节数S4-S1。
 
 

好了,这3个场景读完,想必大家对于TCP的接收流程是怎样的已经非常清楚了,本文起始的6个问题也在这一大篇中都涉及到了。下一篇我们来讨论TCP连接的关闭。 

分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    udp转TcP的接收程序,可用

    这个是一个项目中的代码,执行通过的。用于UDP连接转TCP接收 的服务器接收程序。

    TCP发送接收缓冲区详细讲解

    当TCP接收到数据段时,它会将其放入接收缓冲区,等待应用程序通过recv函数读取。如果接收缓冲区已满,TCP将不再接收新的数据,直到应用程序读取部分或全部缓冲区内容,释放出空间。这种机制确保了接收方不会因为...

    SOCKET TCP 发送接收消息

    本项目“SOCKET TCP 发送接收消息”利用了MFC(Microsoft Foundation Classes)库来实现TCP通信,实现了简单的发送、接收和显示消息的功能,以及双向通信的能力。 首先,TCP是一种面向连接的协议,它在数据交换前会...

    TCP报文发送接收测试工具

    TCP报文发送接收测试工具,正如其标题所言,是用于检验TCP通信的有效性,帮助开发者调试TCP报文传输过程中的问题。这款工具可以模拟客户端与服务器端的角色,实现双向通信,从而对TCP协议的各个方面进行深度测试。 ...

    TCP.UDPServerSocket.rar_TCP消息_tcp接收信息_udp 发送消息_网络发送接收

    本教程通过“TCP.UDPServerSocket.rar”压缩包,旨在介绍如何利用这两种协议实现消息的发送与接收。下面我们将详细探讨TCP和UDP在消息处理中的应用。 首先,TCP是一种面向连接的、可靠的传输协议。它通过三次握手...

    C#TCP接收和发送消息(源码)

    接收消息的过程则涉及到异步编程,因为数据可能分多次到达。我们可以设置一个缓冲区,然后使用BeginRead/EndRead或ReadAsync方法读取数据: ```csharp byte[] buffer = new byte[1024]; int bytesRead; while (...

    tcpudp接收测试工具.rar

    socket,tcp、udp接收工具;作为接收端;不能作为发送端;小工具;

    TCP消息发送和接收

    本文将深入探讨TCP消息的发送和接收,以及如何使用MFC(Microsoft Foundation Classes)库来构建这样的系统。 TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。它确保数据的顺序传输和无丢失,通过三次...

    TCP-接收线程和发送线程

    在这个项目中,“TCP-接收线程和发送线程”是一个C/C++实现的多线程编程示例,旨在展示如何在服务器端和客户端之间有效地管理数据的接收和发送。以下将详细介绍相关的知识点。 首先,我们要理解TCP的基本原理。TCP...

    TCP发送和接收图片源码

    在这个"TCP发送和接收图片源码"的主题中,我们将深入探讨如何利用TCP协议来传输图像数据,以及如何实现桌面截图并发送的功能。 首先,我们要理解TCP的基本工作原理。TCP建立连接的过程被称为三次握手,即客户端发送...

    QT通过Tcp发送接收自定义结构体

    本主题将深入探讨如何在QT中利用TCP(传输控制协议)发送和接收自定义结构体,这对于实现高效、可靠的网络通信至关重要。 首先,我们需要了解TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。在QT中,...

    C#网络通信之TCP连接,客户端和服务端的tcp收发信息

    服务端的TCP监听和接收信息则包括: 1. 创建一个TcpListener对象,设置监听的本地IP地址和端口。 2. 启动监听,调用TcpListener的Start方法。 3. 当有客户端连接请求时,TcpListener的AcceptTcpClient方法会阻塞,...

    Unity通过TCP接收服务端数据

    TCP是游戏中必不可少的一部分,该代码主要包括,TCP的连接,发送数据,接收广播数据,以及拆包,粘包等TCP中常用的一些方法。使用方便,调用简单。只需要按照自己开发接收的TCP包的结构稍微修改代码即可使用。可以...

    TCP发送接收测试

    TCP提供了一种可靠的数据传输服务,确保数据在发送方和接收方之间按照正确的顺序和无错误地传输。在这个“TCP发送接收测试”中,我们主要关注的是使用C#编程语言实现TCP客户端和服务器端的交互。 首先,我们来讨论...

    TCP接收264码流,使用ffmpeg解码

    在这个场景中,我们关注的是通过TCP协议接收H.264编码的视频流,并利用ffmpeg工具进行解码,最终将其保存为YUV格式的文件。这是一个典型的客户端程序实现,具体涉及以下几个关键知识点: 1. **TCP协议**:TCP...

    TCP发送消息并接收消息,实现聊天功能

    TCP发送消息并接收消息,实现聊天功能

    COM-Redirecter 串口转TCP/IP,TCP/IP转虚拟串口

    TCP/IP转虚拟串口:另一方面,COM-Redirecter也能将接收到的TCP/IP网络数据流转化为模拟的串口数据,创建一个虚拟的COM端口。这样,任何需要串口连接的应用程序都可以直接与这个虚拟端口交互,而无须关心数据实际是...

    Tcp通讯,客户端监听,server发消息client接收消息

    **四、TCP接收与确认** TCP协议是可靠传输,所以每个发送的数据段都需要确认。客户端在接收到数据段后,会发送一个ACK数据包,确认收到的序列号。如果服务器未收到确认,会重传数据,确保数据的完整性。 **五、TCP...

    TCP转串口(socket转SerialPort)

    《TCP转串口技术详解——基于C#的socket与SerialPort通信实践》 在现代通信技术中,TCP(Transmission Control Protocol)与串口(Serial Port)是两种常见的通信方式。TCP作为网络通信协议,适用于互联网上的长...

    西门子CPx43-1之间变长TCP数据包接收.zip

    本资料包“西门子CPx43-1之间变长TCP数据包接收.zip”主要涉及的是如何在两个CPx43-1设备之间正确处理和接收变长的TCP数据包。TCP(传输控制协议)是一种面向连接、可靠的网络协议,确保数据在不可靠的网络环境中能...

Global site tag (gtag.js) - Google Analytics