官方微信

河北)触类旁通深入分析排查服务器存储芯片缺陷风险

发布时间:2024-03-04文章来源:jjb测速

  本网讯(通讯员 王瑞松)在信息技术日新月异的今天,服务器的安全稳定对于安全运作至关重要。近期,通信网络室以《关于华为2288H V5服务器iBMC固件版本BUG可能会引起服务器宕机的风险通告》为契机,组织排查本科室所属华为服务器设备。

  据了解,此次风险主要涉及华为2288系列的V5版服务器中的BMC(基板管理控制器)固件版本号为V3.54以下的部分。较低的BMC版本默认使用了“智能诊断数据采集功能”,该功能会定时采集系统硬件信息写入NAND Flash中的数据库,频繁的向NAND Flash中写入数据,会快速消耗NAND Flash寿命。面对这一情况,通信网络室迅速采取了行动。

  首先,通信网络室仔细核查了所使用的服务器型号和BMC版本,确认无误后,他们进一步探索了BMC系统的运作机制。BMC是一个独立的硬件处理器,提供各种服务器硬件状态信息和故障检测机制,并能通过网络远程管理。了解这一点后,技术团队更加明确了此次风险排查的重要性。

  随后,技术团队通过远程SSH登录BMC系统,详细检查了其中使用的NAND Flash芯片的型号和版本。他们发现芯片的型号为海力士的Hi1710,版本为IPMI2.0。这一些信息对于后续的风险评估和应对措施至关重要。

  为了更全面地评估风险,通信网络室利用BMC的日志收集功能,一键收集了系统的运行日志并保存至本地。他们进行了详细查询和综合分析,以进一步了解潜在的风险点并制定应对策略。经过仔细核查和综合分析,他们察觉缺陷的根源在于BMC主板中的NAND Flash芯片读写速率过高。这是因为V5版的服务器的主板中使用的烧录器和烧录文件的方式导致Flash芯片读写速率过高,频繁地读写Flash芯片会加速数据块的损坏,进而缩短芯片的常规使用的寿命。若产生寿命不足5%的告警提示,需通过更换BMC主板来消除告警,否则会产生偶发性的宕机,甚至可能会影响总系统的运行。

  针对这一问题,通信网络室迅速采取了措施。通过与厂家技术上的支持的沟通咨询,他们了解到本科室所属的V3版服务器BMC中存在NAND Flash芯片,但在出厂时并未使能该功能,而是使用了NOR Flash存储方式,故在收集的运行日志中也不会存在nandflash_info类文本,也就是基本不会出现此类告警。另外V5版的BMC使用的海力士芯片与烧录器交错使用致使出厂时NAND Flash自身的缺陷,从而易产生Flash低于常规使用的寿命阈值的告警,同时V3版的BMC中使用的烧录器与V5版使用的不同,所以V3版本的服务器不涉及风险通告中的问题。

  在这次排查过程中,通信网络室不仅进一步探索了服务器的iBMC模块的功能,还开拓了工作视野,为以后的空管安全运行保障工作积累了宝贵经验。

上一篇:KSDC-B型电力线载波体系操控器 下一篇:多媒体播映器智通数字媒体控制器ZT-S1600