网卡接收数据包流转图
第一阶段:网卡接收数据包
1:通过DMA把数据包从网卡拷贝到内存的Ring 缓冲区中,Ring 这里不再详细展开,它是网卡暂存和处理数据包的一种通用数据结构,分为RX Ring和TX Ring。
2:网卡触发硬中断通知CPU收包
3:CPU调用网卡驱动注册的硬中断处理函数
记录一下硬件中断频率将驱动传过来的添加到CPU变量里的中 //主要实现驱动程序将其poll函数注册到cpu的调用网卡驱动注册的硬中断处理函数
4:硬中断处理函数向内核软中断线程发出软中断请求
5:执行软中断处理函数()
6:()调用驱动注册的poll函数从Ring 开始轮询收包
第二阶段:包在内核各个模块中的流转
内核各个模块中的流转图
1:poll收包函数从Ring 取出数据并封装为结构,并传递到子系统层处理
以igb网卡为例,这里子系统层处理主要是和函数
2:传递到函数进行处理,抓包流程就是在这个函数中,根据协议类型(ip or arp)传递到不同的上层处理函数
报文从设备层送到上层之前,必须区分是 IP 报文还是 ARP 报文, 然后才能往上层送。去 {} 查该包网络层使用的是哪种协议,查到和数据包协议类型相匹配的协议后,就调用对应的处理函数,如IP协议对应的处理函数是。
3:()是ip层的入口函数,会先进行一些简单的ip层处理,比如检验ip数据包的完整性等
4:函数随后调用函数宏将控制权交给在模块的,进行链的相关规则处理
5:随后调用函数进行相关的处理,该函数最重要的流程就是路由处理,
通过查找路由表,根据路由表信息判断目的ip是,发往本机处理址(根据是否匹配到目标ip对应的local路由条目来判断),还是进行转发(如果内核开启了允许转发选项)或者drop处理(非本机处理也不允许转发)
6:如果是本机处理,则调用 () 函数发送到上层协议进行处理,如果收到的是ip分片,则会在 () 中对ip分片进行重组后再传递到上层
7:随后经过模块的INPUT链规则处理后传递到上层进行处理
8:这里会根据协议类型决定调用不同的收包函数,比如tcp or udp or icmp,tcp的收包函数就是,udp和icmp分别是和
第三阶段:应用层收包
fd、、sock关系和应用层收包流程图
1:握手阶段,数据包会被存储在队列的结构中,是一个半连接队列用于存储还未完成tcp3次握手的连接,是一个临时存储tcp连接信息的sock结构。
如果内核开启syn 的情况下,当半连接队列存满之后连接信息经过处理后会被存储到seq序列号中再由客户端回包的时候传递回来。
2:完成握手的连接则会被存储在(延迟接受)、(正常接受)、(序列号对不上)对应的队列中,然后调用回调函数,检测到该有数据可读后,会更新该与该关联的文件描述符fd为可读状态,然后通过应用程序对应的收包函数(比如epoll)通知应用层程序来接收数据包。
这里延伸一下,fd和以及sock之间的关系:
fd:文件描述符,对应一个file结构体,在内核中一个打开的文件用file结构体表示
:分为监听和连接,这里的是连接,主要用于关联fd和sock结构,它是应用层程序和内核协议栈的一个接口。
sock:实际表示网络连接的结构,和结构一一对应,tcp连接对应的sock结构是,由sock结构体通过sock->->->链封装而来。sock结构体中有包含各种接收队列,如:。
一个数据包达到tcp层后,先发送到sock对应的接收队列中,然后触发对应的回调函数更新sock对应的fd为可读状态,内核通过对应的检测机制检测到fd可读状态后,就会通知应用程序来接收数据包。
第四阶段:数据包的发送
零拷贝数据流转图
ip层数据包发送流转图
数据包的发送整体流转图
数据拷贝方式:
普通方式是:数据先从内核缓冲区 -> 拷贝到用户态缓冲区,然后从用户态缓冲区 -> 再拷贝到内核缓冲区方式:也就是零拷贝,数据直接从内核缓冲区 -> 发送到缓冲区,如果网卡支持-,则只拷贝fd到缓冲区,数据则直接从内核缓冲区拷贝到网卡缓冲区。
1:tcp层处理
通过->->->调用链发送数据包,
:是发送数据包的入口
申请并封装结构更新skb的TCP控制块字段,把加入到sock发送队列的尾部,增加发送队列的大小,减小预分配缓存的大小如果是零拷贝方式,则进行零拷贝相关处理将发送队列中的发送出去
2:ip层处理
通过->->->->->->->->->调用链进行ip层的处理
int ip_queue_xmit(struct sk_buff *skb, int ipfragok)
{
struct sock *sk = skb->sk;
struct inet_sock *inet = inet_sk(sk);
struct ip_options *opt = inet->opt;
struct rtable *rt;
struct iphdr *iph;
/*……*/
/* Make sure we can route this packet. */
rt = (struct rtable )__sk_dst_check(sk, 0); /*取出sk中缓存的“路由缓存”*/
if (rt == NULL) { /*如果没有缓存“路由缓存”,则要查找路由缓存*/
__be32 daddr;
daddr = inet->daddr;
{
struct flowi fl = { .oif = sk->sk_bound_dev_if,
.mark = sk->sk_mark,
.nl_u = { .ip4_u =
{ .daddr = daddr,
.saddr = inet->saddr,
.tos = RT_CONN_FLAGS(sk) } },
.proto = sk->sk_protocol,
.flags = inet_sk_flowi_flags(sk),
.uli_u = { .ports =
{ .sport = inet->sport,
.dport = inet->dport } } };
if (ip_route_output_flow(sock_net(sk), &rt, &fl, sk, 0))
goto no_route;
}
sk_setup_caps(sk, &rt->u.dst);
}
skb_dst_set(skb, dst_clone(&rt->u.dst));
packet_routed:
/* OK, we know where to send it, allocate and build IP header. */
/*这里省略了根据查找出得路由缓存设置ip头部字段,包括源、目的地址、ttl、是否允许分片等标示*/
return ip_local_out(skb);
}
1.: IP模块发送数据包的入口,会读取sk中缓存的“路由缓存”,根据查找出得路由缓存设置ip头部字段,包括源、目的地址、ttl、是否允许分片等。如果没有路由缓存,则调用查找路由表。
如果该没有绑定源IP,该函数会根据路由表找到一个最合适的源IP给它。 如果该已经绑定了源IP,但根据路由表,从这个源IP对应的网卡没法到达目的地址,则该包会被丢弃,于是数据发送失败
2.:这个函数是用来查找路由缓存的(注意不是查找路由表的,只有路由缓存查找不命中时才会查找路由表,路由缓存表在内核中用 结构体来表示),如果路由缓存没有查找到,则调用查找路由表。
3.:如果找到路由后则会调用根据路由表的查找结果构建一个路由缓存项,这样下次向同一个目的地址发送就可以直接查路由缓存了(其实对于TCP连路由缓存也不需要查,因为会将路由缓存存入sock结构,当然这个缓存有过期时间)。
4.:负责为路由缓存项创建邻居项,查找并创建下一跳ip对应的邻居表项,将下一跳的邻居表项和目的地址的路由缓存绑定。如果没找到邻居表项缓存,则会创建(这里仅仅是创建邻居表项,并不填充对应的mac地址)下一跳ip对应的邻居表项,并加入邻居表项hash表。
5.: 设置IP报文头的长度和,然后调用下面的钩子
6.: 的钩子,可以通过来配置怎么处理该数据包,如果该数据包没被丢弃,则继续往下走
7.: 该函数根据skb里面的信息,调用相应的函数,对于单播数据报,会调用
8.:将上面得到的网卡信息写入skb,然后调用的钩子
9.: 在这里,用户有可能配置了SNAT,从而导致该skb的路由信息发生变化
10::此函数主要功能是:如果数据包大于MTU,则调用进行分片,否则调用输出,其实分片后也会调用。这里会判断经过了上一步后,路由信息是否发生变化,如果发生变化的话tcp数据包,需要重新调用(重新调用这个函数时,可能就不会再走到,而是走到被指定的函数里,这里有可能是ut),否则往下走
11.: 根据目的IP到路由表里面找到下一跳()的地址,然后调用noref去arp表里面找下一跳的neigh信息,没找到的话会调用构造一个空的neigh结构体
12.: 在该函数中,如果上一步没得到neigh信息,那么将会走到函数中,否则直接调用,在该函数中,会将neigh信息里面的mac地址填到skb中,然后调用发送数据包
13.: 该函数里面会发送arp请求,得到下一跳的mac地址,然后将mac地址填到skb中并调用
3:子系统层处理
通过 -> ->->调用链进行子系统层处理。
: 子系统的入口函数,在该函数中,会先获取设备对应的qdisc,如果没有的话(如或者IP ),就直接调用,否则数据包将经过 模块进行处
: 这里主要是进行一些过滤和优先级处理,在这里,如果队列满了的话,数据包会被丢掉,详情请参考文档,这步完成后也会走到
: 该函数中,首先是拷贝一份skb给“ taps”,就是从这里得到数据的,然后调用。如果返回错误的话(大部分情况可能是),调用它的函数会把skb放到一个地方,然后抛出软中断,交给软中断处理程序稍后重试(如果是或者IP 的话,失败后不会有重试的逻辑)
: 这是一个函数指针,会指向具体驱动发送数据的函数
4:网卡驱动层处理
会绑定到具体网卡驱动的相应函数tcp数据包,到这步之后,就归网卡驱动管了,不同的网卡驱动有不同的处理方式,这里不做详细介绍,其大概流程如下:
将skb放入网卡自己的发送队列通知网卡发送数据包网卡发送完成后发送中断给CPU收到中断后进行skb的清理工作
在网卡驱动发送数据包过程中,会有一些地方需要和子系统打交道,比如网卡的队列满了,需要告诉上层不要再发了,等队列有空闲的时候,再通知上层接着发数据。
整体流转图:
限时特惠:本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情
站长微信:Jiucxh