您现在的位置是:主页 > 数据库技术 > 数据库技术

ESXI主机紫屏分析方法是什么

IDCBT2022-01-07服务器技术人已围观

简介这篇文章给大家介绍ESXI主机紫屏分析方法是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。 一:概述 相信VMware的工程师对紫屏不会陌生,紫屏死机(

这篇文章给大家介绍ESXI主机紫屏分析方法是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

一:概述

相信VMware的工程师对紫屏不会陌生,紫屏死机(PSoDs, Purple Screen of Death)是发生在ESXI上的一种故障,类似于微软Windows操作系统的蓝屏。紫屏情况通常是由于硬件和软件故障导致的,比如软件bug、CPU、内存泄露等原因。当发生紫屏故障时整个ESXI主机会突然崩溃,当紫屏故障发生后管理员能做的只有记录紫屏信息以及重启主机,也就是说ESXI主机上面的虚拟机将会受到影响;如果有HA机制的话则会迁移到其他可用的ESXI主机。

当发现ESXI主机出现紫屏现状时第一时间应该将紫屏的信息记录下来,简单的办法就是将当前的屏幕信息截图或者拍照下来,因为里面包括很多重要的信息;在里面可以显示和了解到ESXI版本和build号、异常类型、寄存器转储(register dump)、崩溃时每个CPU正在跑什么、回溯追踪(back-trace)、服务器运行时间、错误日志、内存硬件信息等。当将ESXI主机重启后,还可以通过ESXI主机的/root或者//var/core/获取vmkernel-zdump文件,当发生紫屏后会有一个以vmkernel-zdump开头(命名)的文件,可以将该文件提交给VMware的技术支持帮助进行故障分析;同时也可以额借助通过vmkdump工具提取 VMkernel日志信息、寻找与PSoDs有关的线索,从而判断PSoDs发生的原因。关于提取和识别vmkernel-zdump查阅官方KB:https://kb.vmware.com/s/article/1006796?lang=zh_CN

二:理解紫屏信息

通过紫屏后屏幕信息都可以获取到很多关键信息,管理员可以快速的借助这些信息进行故障定位和排查。错误会显示在紫色诊断屏幕中。紫色诊断屏幕大致如下所示:

通过以上内容可以查看到几个关键信息

· 产品和内部版本:
VMware ESX Server [Releasebuild-3620759
紫色诊断屏幕中的此部分表示出错的产品和内部版本。在本示例中,产品是ESXI,版本号是3620759,也就是ESXI 6.0 U2

· 错误消息:
PCPU 1 locked up.Failed to ack TLB invalidate
紫色诊断屏幕的此部分表示报告的错误消息。只能报告有限数量的错误消息。本文稍后会讨论这些错误消息。

· CPU 寄存器:
frame=0x3a37d98 ip=0x625e94 cr2=0x0 cr3=0x40c66000 cr4=0x16c
es=0xffffffff ds=0xffffffff fs=0xffffffff gs=0xffffffff
eax=0xffffffff ebx=0xffffffff ecx=0xffffffff edx=0xffffffff
ebp=0x3a37ef4 esi=0xffffffff edi=0xffffffff err=-1 eflags=0xffffffff
出错时,这些值存储在物理 CPU 寄存器中。这些寄存器中的信息千差万别,具体取决于出现的 VMkernel 错误

· 物理 CPU:
*0:1037/helper1-4 1:1107/vmm0:Fagi 2:1121/vmware-vm 3:1122/mks:Franc

标签:

很赞哦! ()