故障说明近期,博主管理的Red Hat Enterprise Linux 8.9服务器出现内存异常消耗问题。服务器内存频繁告警,尽管日常业务增加导致的内存消耗不大,但被消耗的内存无法正常释放,实际使用内存远低于告警显示的消耗量。结论调查发现,RHEL 8版本内核存在BUG,导致Percpu与blkio持续升高并占用大量内存,而这些内存不会被常规监控工具显示,最终内存消耗增加并触发告警。解决方法建议对内核进行降级或升级至官方推荐版本,操作后需重启服务器。问题发现与排查过程通过使用free -h命令发现内存状态异常,top命令显示业务内存占用率不高。注意到内存告警,怀疑是slab缓存问题。尝试手动释放缓存、检查HugePages使用情况,均未找到原因。安装辅助工具lsof和atop,分析内存占用情况,发现可能有未被释放的进程占用内存,但无法直接定位问题。采用对比法解决问题准备一台与故障服务器完全相同的对照服务器,逐条对比内存详情。通过cat /proc/meminfo命令获取内存详情,对比分析,最终定位问题根源并采取措施解决。总结与建议修改内核参数或升级/降级内核需谨慎,并进行充分测试。在生产环境应用前,建议先在测试环境中验证。遇到类似问题时,参考排查过程和工具使用方法,保持耐心分析问题,积累解决问题的经验。