Linux虚拟化KVM-Qemu分析(十二)之ioeventfd与irqfd

背景

  • Read the fucking source code!  –By 鲁迅
  • A picture is worth a thousand words. –By 高尔基

说明:

  1. KVM版本:5.9.1
  2. QEMU版本:5.0.0
  3. 工具:Source Insight 3.5, Visio
  4. 文章同步在博客园:https://www.cnblogs.com/LoyenWang/

1. 概述

Linux虚拟化KVM-Qemu分析(十二)之ioeventfd与irqfd

  • 图中的各个模块,只剩下通知机制没讲了,本文来一篇终结者;

Guest与KVM及Qemu之间的通知机制,如下图:

Linux虚拟化KVM-Qemu分析(十二)之ioeventfd与irqfd

  • irqfd:提供一种机制,可以通过文件描述fd来向Guest注入中断,路径为紫色线条所示;
  • ioeventfd:提供一种机制,可以通过文件描述符fd来接收Guest的信号,路径为红色线条所示;
  • eventfdirqfd这两种机制,都是基于eventfd来实现的;

本文会先介绍eventfd机制,然后再分别从Qemu/KVM来介绍ioeventfdirqfd,开始吧。

2. eventfd

  说来很巧,我曾经在工作中实现过一个类似eventfd机制的内核模块,用于多线程之间的轻量级通知,算是重复造轮子了。

eventfd的机制比较简单,大体框架如下图:

  • 内核中创建了一个struct eventfd_ctx结构体,该结构体中维护一个count计数,以及一个等待队列头;
  • 线程/进程在读eventfd时,如果count值等于0时,将当前任务添加到等待队列中,并进行调度,让出CPU。读过程count值会进行减操作;
  • 线程/进程在写eventfd时,如果count值超过最大值时,会将当前任务添加到等待队列中(特殊情况),写过程count值会进行加操作,并唤醒在等待队列上的任务;
  • 内核的其他模块也可以通过eventfd_signal接口,将count值加操作,并唤醒在等待队列上的任务;

代码实现如下图:

  • eventfd机制对用户层提供的系统调用接口包括eventfd()write()read()select/poll等;

  • 通过eventfd来创建文件描述符,从代码中可以看出,该接口的实现为do_eventfd,完成的工作包括:

1)在内核中分配struct eventfd_ctx结构体来维护上下文;

2)初始化等待队列头用于存放睡眠等待的任务;

3)分配未使用的文件描述符fd,创建file实例(该实例会绑定操作函数集),将文件描述符fd与file实例建立连接等;

  最终系统调用read/write时,便会分别调用到eventfd_read/eventfd_write函数:

  • eventfd_read:如果count值为0,将自身添加到等待队列中,设置任务的状态后调用schedule让出CPU,等待被唤醒。读操作中会对count值进行减操作,最后再判断等待队列中是否有任务,有则进行唤醒;

  • eventfd_write:判断count值在增加ucnt后是否会越界,越界则将自身添加到等待队列中,设置任务的状态后调用schedule让出CPU,等待被唤醒。写操作会对count值进行加操作,最后再判断等待队列中是否有任务,有则进行唤醒;

  • 此外,还有eventfd_signal接口,比较简单,完成的工作就是对count值进行加操作,并唤醒等待任务;

基石讲完了,我们来看看基于之上的ioeventfdirqfd

3. ioeventfd

3.1 Qemu侧

以PCI设备为例:

  • Qemu中模拟PCI设备时,在初始化过程中会调用memory_region_init_io来进行IO内存空间初始化,这个过程中会绑定内存区域的回调函数集,当Guest OS访问这个IO区域时,可能触发这些回调函数的调用;
  • Guest OS中的Virtio驱动配置完成后会将状态位置上VIRTIO_CONFIG_S_DRIVER_OK,此时Qemu中的操作函数调用virtio_pci_common_write,并按图中的调用流逐级往下;
  • event_notifier_init:完成eventfd的创建工作,它实际上就是调用系统调用eventfd()的接口,得到对应的文件描述符;
  • memory_region_add_eventfd:为内存区域添加eventfd,将eventfd和对应的内存区域关联起来;

  看一下memory_region_add_eventfd的流程:

  • 内存区域MemoryRegion中的ioeventfds成员按照地址从小到大排序,memory_region_add_eventfd函数会选择合适的位置将ioeventfds插入,并提交更新;
  • 提交更新过程中最终触发回调函数kvm_mem_ioeventfd_add的执行,这个函数指针的初始化是在Qemu进行kvm_init时,针对不同类型的内存区域注册了对应的memory_listener用于监听变化;
  • kvm_vm_ioctl:向KVM注册ioeventfd

Qemu中完成了初始化后,任务就转移到了KVM中。

3.2 KVM侧

KVM中的ioeventfd注册如下:

  • KVM中注册ioeventfd的核心函数为kvm_assign_ioeventfd_idx,该函数中主要工作包括:

1)根据用户空间传递过来的fd获取到内核中对应的struct eventfd_ctx结构体上下文;2)使用ioeventfd_ops操作函数集来初始化IO设备操作;3)向KVM注册IO总线,比如KVM_MMIO_BUS,注册了一段IO地址区域,当操作这段区域的时候出发对应的操作函数回调;

  • 当Guest OS中进行IO操作时,触发VM异常退出,KVM进行捕获处理,最终调用注册的ioevnetfd_write,在该函数中调用eventfd_signal唤醒阻塞在eventfd上的任务,Qemu和KVM完成了闭环;

总体效果如下图:

4. irqfd

Qemu和KVM中的流程如下图:

  • Qemu中通过kvm_irqchip_assign_irqfd向KVM申请注册irqfd
  • 在KVM中,内核通过维护struct kvm_kernel_irqfd结构体来管理整个irqfd的流程;
  • kvm_irqfd_assign

1)分配struct kvm_kernel_irqfd结构体,并进行各个字段的初始化;2)初始化工作队列任务,设置成irqfd_inject,用于向Guest OS注入虚拟中断;3)初始化等待队列的唤醒函数,设置成irqfd_wakeup,当任务被唤醒时执行,在该函数中会去调度工作任务irqfd_inject;4)初始化pll_table pt字段的处理函数,设置成irqfd_ptable_queue_proc,该函数实际是调用add_wait_queue将任务添加至eventfd的等待队列中,这个过程是在vfs_poll中完成的;

  • 当Qemu通过irqfd机制发送信号时,将唤醒睡眠在eventfd上的任务,唤醒后执行irqfd_wakeup函数,在该函数中调度任务,调用irqfd_inject来注入中断;

总体效果如下图:

收工!

如果对你有用的话,在看分享打赏三连吧,谢谢。

Linux虚拟化KVM-Qemu分析(十二)之ioeventfd与irqfd》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.hashtobe.com/945.html