问题1
实验室新装了几台服务器,加入vSphere集群,配置显卡直通后,创建的windows虚拟机可以正常安装Nvidia驱动,nvidia-smi命令可以显示显卡信息,但是创建的ubuntu虚拟机nvidia-smi一直无法显示显卡信息,返回no devices were found。
sudo lspci |grep -i VGA
1
   | 03:00.0 VGA compatible controller: NVIDIA Corporation Device xxxxx
 
  | 
 
dmesg
1 2 3 4
   | [ 1606.332778] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1463) [ 1606.332912] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0 [ 1607.004207] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1463) [ 1607.004349] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0
 
  | 
 
环境
解决方案
NVDIA论坛有类似问题,中文社区貌似没有搬运过类似的方法,大多是设置高级参数,打补丁之类的方法。传送门
- 
禁用nouveau
 
1 2 3 4 5 6
   | touch /etc/modprobe.d/blacklist-nvidia-nouveau.conf
  cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf << EOF blacklist nouveau options nouveau modeset=0 EOF
 
  | 
 
- 
NVDIA内核参数
 
1 2 3 4 5
   | touch /etc/modprobe.d/nvidia.conf
  cat >> /etc/modprobe.d/nvidia.conf << EOF options nvidia NVreg_OpenRmEnableUnsupportedGpus=1 EOF
 
  | 
 
- 
应用更改
 
1
   | sudo update-initramfs -u
 
  | 
 
- 
重启
 
- 
下载驱动(官网)
 
- 
安装驱动
 
1
   | sudo .\nvidia-derive-filename.run -m=kernel-open
 
  | 
 
- 
重启
 
问题2
vsphere中的虚拟机配置直通GPU后,启动时出现模块“DevicePowerOn”打开电源失败。
环境
解决方案
设置高级参数
1 2
   | pciPassthru.use64bitMMIO=TRUE pciPassthru.64bitMMIOSizeGB=64
 
  | 
 
具体操作如下:

