Windows反复蓝屏与dump定位


概述

从日志上看其实就能发现了,很早之前就出现过这个问题,但是今天出现得特别频繁,实在不能忍了就计划排除一下这个问题。当然我不知道最后有没有顺利解决(之前发生这种情况,都是把电源拔插重新紧紧就好了,那会可能真的是主板问题,但是今天的情况和之前不一样,在5月那次宕机时还专门买了UPS来稳定电压)。

WinDbg

dump1

众所周知,一个程序的coredump是定位问题的关键(今天就深刻感受到了),Windows的coredump文件存储在C盘下的Windows文件夹中,文件名为Minidump。管理员打开WinDbg Preview,按照File==>Start debugging==>Open dump file==>xxx.dmp次序打开记录蓝屏故障的dump文件,dump文件将在Command框进行分析,初步分析需要下载符号文件,因此会比较慢。dump文件加载成功后,Command框中将出现如下代码,

目前存储了近期的3次dump文件,其余的在清理垃圾的时候给删除了,逐个分析:

可以发现是wsl2下的docker导致的,但事实上那会我并没有启动docker,也没有启动wsl,所以这个问题是非常奇怪的。但是啊,我发现在事件查看里面充斥着非常多的不兼容报错,最好不要乱升级。

dump2

第二个问题是WSL2下的NVIDIA Share.e的问题。

dump3

第三个也是同理。

分析

基本上可以锁定是NVIDIA的驱动更新后和Windows的WSL API不兼容的问题了,其实这个早有预兆:

之前一直能在wsl2下使用的nvitop命令现在无法使用了。

不要乱升驱动

虽然从内核dump上基本上可以确定问题的关键了,但是还有其他奇怪的点,首先wsl是懒加载的,如果我不启动Ubuntu那么相关的服务是不应该运行的,那么为什么会导致我启动后打开网页不久就蓝屏?除了dump外,我发现在反复崩溃重启后我的外置声卡设置恢复了默认情况不可用,于是我怀疑是外置声卡这个硬件与别的设备冲突了,所以把声卡拔掉后就好了(但愿)。

诱因

尝试复现错误

将wsl关闭后再启动,果然这个调用错误出现了。

再试着跑一个深度学习的实验试试调用GPU:

能成功调用,还算个好消息,至少目前先解决蓝屏的问题。


文章作者: JoyTsing
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 JoyTsing !
评论
  目录