当前位置:首页 » 引流推广 » 正文

vsg故障怎么解决,诊断网络异常原因,VMware vSAN性能故障排错流程方法论

5662 人参与  2024年04月26日 04:33  分类 : 引流推广  评论

#头条创作挑战赛#

对于许多管理员来说,对性能问题进行故障排除可能是一项复杂的任务,无论底层基础结构和拓扑如何。像 vSAN 这样的分布式存储平台也会引入其他可能影响性能的因素,故障排除实践应考虑到这些注意事项。下面提供的指导将帮助管理员使用 vSAN 性能服务中找到的衡量指标来隔离性能问题的根源。

在对 vSAN 环境中的性能问题进行故障排除时,被问到的两个最常见的问题是 1.)哪些指标最重要?和 2.)我应该按什么顺序查看指标?让我们解决这两个具体问题,以便您可以更轻松地在自己的环境中采取行动。

查看性能故障排除工作流

首先,让我们看一下用于对 vSAN 环境中的性能进行故障排除的基本框架,如图 1 所示。这 5 个步骤中的每一个对于提高正确识别根本原因的可能性都至关重要,并且以系统的方式完成缓解步骤。


图1.vSAN 性能故障排除工作流

活动虚拟机上任何与存储相关的性能问题的领先指标是来宾虚拟机延迟。对于虚拟化管理员,他们通常通过以下两种警报机制之一来了解这一点:来自用户或管理员的投诉,或监视性能阈值的系统警报。通常确定延迟的原因就是故障排除过程的开始。

哪些指标最重要?

遗憾的是,这不是一个明确的答案,因为 vSAN 性能服务中可用的衡量指标都以某种形式相互关联。环境条件和性能问题的根本原因将决定哪些指标比其他指标更重要。这就是发现过程(故障排除工作流中的步骤 #2 和 #3)对该过程如此重要的原因。在从性能指标中获得真正的见解之前,了解环境条件非常重要。单独查看时,离散指标可能提供的帮助很少,但与其他指标一起查看时却有意义。

存储延迟是所有存储性能指标中最突出的,因为它定义了完成/确认 I/O 交付的时间,并且通常以毫秒 (ms) 为单位按时间报告。这是系统必须等待处理后续 I/O 或执行其他命令等待该 I/O 的时间。使用虚拟机管理程序,可以仅对存储堆栈的一部分(通过 ESXTOP 可见)或整个端到端路径(从虚拟机到存储设备)进行延迟测量。请注意,延迟是一个条件指标。它没有提供感受到延迟的 I/O 数量的上下文。它也仅表示测量它的位置。可以在存储堆栈上下的多个位置测量延迟。这就是查看指标的顺序变得至关重要的原因。

性能指标的检查顺序

完成故障排除框架中的发现步骤后,即可开始使用性能指标的过程。查看指标的顺序有助于破译可能发生的级别争用。图 2 显示了可以查看衡量指标以更好地了解和隔离问题的顺序,并且与 StorageHub 上的“vSAN 性能故障排除”文档中的“附录 C:故障排除示例”中使用的顺序相同。


图2.查看性能指标的顺序

下面我们为每个步骤提供更多上下文:

  1. 在 VM 级别查看指标,以确认有问题的 VM 是否遇到异常高的存储
    相关延迟。必须验证这是否确实存在来宾 VM 看到的存储延迟。

  2. 在集群级别查看指标以提供上下文并查找任何其他异常。这将有助于识别来自集群中其他地方的潜在“噪音”。

  3. 查看主机上的衡量指标,以隔离与已识别的延迟关联的存储 I/O 类型。

  4. 查看主机上的衡量指标,查看磁盘组级别以确定延迟的类型和来源。

  5. 查看主机上的衡量指标,查看主机网络和 VMkernel 衡量指标以确定问题是否与网络
    相关。

步骤 3 到 步骤5 假定已确定虚拟机对象所在的特定主机,这可以在 vCenter UI 中轻松完成。为简单起见,主机级别衡量指标应仅查看相关特定虚拟机的对象所在的主机。

建议:在对环境进行更改以提高性能时,要勤奋并深思熟虑。一次更改多个设置、忽略简单的配置问题或不测量性能变化通常会使情况变得更糟,并且解决起来更复杂。

本文链接:https://www.woshiqian.com/post/227794.html

<< 上一篇 到底啦 >>

  • 评论(0)
  • 赞助本站

       

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

搜索

网站分类

最近发表