您现在的位置是:休闲 >>正文
5万台服务器"体检"3分钟完成!浪潮信息AIOps新升级厉害了
休闲9814人已围观
简介北京2024年12月26日 /美通社/ -- 根据调研报告显示,大规模数据中心每宕机一分钟将会造成近1万美元的经济损失,而数据中心的宕机成本随着近年来数据中心规模的不断扩大还在不断攀升,除经济损失外, ...
北京2024年12月26日 /美通社/ -- 根据调研报告显示,体检大规模数据中心每宕机一分钟将会造成近1万美元的服务经济损失,而数据中心的器分宕机成本随着近年来数据中心规模的不断扩大还在不断攀升,除经济损失外,钟完宕机造成的成浪潮信业务中断对公司声誉有着不可估量的影响。"小病不治,息A新升大病难医",体检金融、服务互联网行业大规模数据中心通常每月都会为IT基础设施定期巡检,器分以及时发现可疑问题,钟完快速修复,成浪潮信这已经成为保障数据中心业务连续性的息A新升关键。
日前,体检浪潮信息全新升级数据中心服务器故障智能诊断AIOps技术。服务针对数据中心服务器日常巡检中,器分故障人工识别效率低,难以精准定位的问题,浪潮信息基于数百万台服务器运维管理经验,打造先进的AI模型算法,融合专家经验知识图谱,构建覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理。在互联网、金融等用户数据中心部署应用过程中,服务器故障智能诊断AIOps技术涵盖国内外众多厂商的上百种不同型号的IT设备的各类故障,5万+服务器规模的数据中心,故障排查时间从4小时缩短至3分钟,有效应对数据中心规模不断扩大带来的运维管理挑战,为数据中心的高效、精准、智能化运维提供了有力支撑,也为客户的业务连续性提供保障。
数据中心服务器运维"体检"两大难:人工效率低、故障识别难
随着AIGC、5G、物联网(IoT)等技术飞速发展,全球大型数据中心数量将以3.6%的年复合增长率增长,数据中心规模不断扩大,在这一过程中,服务器的代际及品牌也越来越繁杂,需要运维工程师每月甚至每天定期对服务器故障进行巡检修复,这对运维工程师的需求大幅增加,从而提升了企业运维成本;同时,随着越来越多的核心业务系统迁移到线上,业务对系统的即时性要求不断提高,而且"小病不治,大病难医",日常定期巡检已经是保障系统的持续稳定运行的关键。
一方面,在传统运维中,为预防系统宕机风险,运维人员会定期对服务器进行日常故障巡检,通过手动筛查后台运行日志识别各类服务器故障,但这种人工方式的故障识别低效且时效性差。数据中心中服务器种类繁杂,品牌、型号、代际多样,加之海量的故障日志和报警信息交织,使得人工分析过程耗时长达数小时甚至数天。这种方式难以快速响应业务需求,严重影响系统的可用性和故障恢复效率。
另一方面,据数据统计,大型数据中心的实际运维中服务器最容易出现故障的三个部件分别是内存、硬盘、CPU,传统运维检测工具主要围绕在这些部件的监测上,但实际运维中仍然有一些小概率故障会出现在风扇、网卡、电源以及其他的元器件上,而这种小概率故障事件往往隐藏在复杂的运行数据中,传统工具难以精准捕捉这些信号。由于此类问题信号弱且不易察觉,未及时修复可能引发连锁反应,扩大故障影响范围,从而延长修复周期并降低系统的可靠性。同时,一些复杂场景下的疑难故障排查高度依赖专家经验,然而,运维团队往往缺乏足够的专家资源,导致问题长期得不到解决。这不仅拖延了系统恢复时间,还进一步影响业务的稳定性和用户体验。
打造"识别-诊断-处理"一体化AIOps服务器智能诊断体系
针对数据中心传统故障运维的挑战,浪潮信息以数百万级服务器统一管理经验,全新升级数据中心AIOps智能诊断技术。AIOps智能诊断技术兼容多品牌、多型号及不同代际服务器产品,通过轻量化设计将诊断模型部署至服务器端,实现了关键指标秒级感知与响应、故障根因精准诊断、解决方案秒级呈现的全链条智能,构建了覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理,全面助力数据中心智能、高效的运维管理。
- 动态实时日志分析技术,故障识别效率提升60倍以上
数据中心AIOps智能诊断技术引入了时序数据分析与分离算法,从关键部件,时序时间以及使用情况三个维度进行交叉比对,在故障发生时实时筛选关键日志,打破了传统单一维度、单线程的诊断模式。通过特征提取与异常模式匹配,让检测的颗粒度更加精细同时更加精准,以便快速发现异常项,将传统故障诊断的时长从小时级缩短至分钟级甚至秒级。而这种海量数据的多维度的感知,就好像是我们的五感一样,不再是通过单一的触觉或者是嗅觉判读,而且通过"望闻问切"的方式全景化、自动化的快速定位问题节点,大幅提升故障响应效率,保障系统的高效运维。
- 塑造可自进化模型,小概率故障精准率达90%以上
作为全球领先的算力基础设施提供商,多年来浪潮信息在实践中积累了海量的故障处理经验,因此浪潮信息基于海量历史数据构建了故障诊断模型,并融合决策树、深度学习等多种算法,对隐匿的小概率故障进行精准识别,故障诊出率超过98%,高故障率部件故障诊断准确率可达95%以上,小概率故障诊断准确率提升至90%以上。同时,系统具备自学习能力,能逐步优化诊断规则,应对未知故障类型,有效提高系统稳定性与可用性。
- 融合专家经验的"口袋模型",解决方案秒级呈现
浪潮信息将资深运维专家的经验转化为知识图谱,并与机器学习模型深度融合,推出"口袋模型"功能。该模型能够在秒级内提供最优解决方案和清晰的故障处理指引,帮助运维团队快速应对疑难问题,减少对专家支持的依赖,提升整体运维效率。
当前,该AIOps技术已广泛应用于金融、互联网等行业大规模数据中心,应用结果显示,在5万+规模的数据中心,服务器故障排查时长从4小时缩短至3分钟,对于一些小概率故障的诊断更能见微知著,有效避免了业务中断;同时,对于计算模块、存储模块等存在复杂关联关系的疑难故障问题,故障处理时间减少80%以上,极大降低了运维团队的工作压力。这些创新成果不仅提升了故障响应效率和诊断精准度,还增强了系统的稳定性与业务连续性,为企业数据中心的高效运维提供了全面技术支持,树立了智能化管理的行业标杆。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“画地成牢网”。http://www.tj-baode.com/html/48d782592126.html
相关文章
西气东输管道穿越长江创世界纪录
休闲【建材网】据江苏省能源局发布的信息,中国石油西气东输管道公司LNG气化外输过江天然气管道泰兴至芙蓉段长江定向钻穿越,于5月21日一次回拖成功,创造了管径711毫米长度3302米定向钻穿越世界新纪录。西 ...
【休闲】
阅读更多积石山震区村民:熬过寒冷而心惊的一夜
休闲2023年12月19日凌晨,甘肃临夏积石山县居民在街边生火过夜 视觉中国/图)临夏州:地震发生时,人几乎站不稳2023年12月18日晚11:59,甘肃省西南部临夏回族自治州,服用了感冒药的林方突然从梦 ...
【休闲】
阅读更多开门红消费贷提前开战,利率卷进“2”字头
休闲消费贷“卷”起来,临近年末,消费贷利率更加优惠。刚刚过完双十一、双十二,银行又开始迎战“开门红”,部分银行的消费贷利率区间已经来到了“2字头”,多数消费贷的利率水平在3.2%~3.8%之间,非常亲民。 ...
【休闲】
阅读更多
热门文章
最新文章
友情链接
- 研究生申请日本博士流程详解
- 二等二学位申请英国埃克塞特大学硕士攻略
- 总书记的一周(6月14日—6月20日)
- 美国大学生数学建模竞赛( MCM/ICM)
- 专科生去韩国留学容易吗
- “团圆”行动,圆了团聚梦
- 美国大学生数学建模竞赛( MCM/ICM)
- 山东与世界500强连线暨深化与欧盟合作推进会在济南举办
- 中国首个地方流域共同立法将施行
- 探访北极边境派出所:他们就像冰天雪地里的暖阳
- 兵团政法系统“百日大练兵”锻造铁军
- 外交部副部长乐玉成:将中格关系发展机遇转化为更多合作成果
- 31省份新增确诊病例30例 其中本土病例6例均在广东
- 专科生去韩国留学容易吗
- 对接港澳网络环境 降低跨境办公成本
- 英国大学本科申请UCAS指南
- 美国金融专业 到底学些什么
- 英国大学硕士申请条件知多少?
- 付丽莎:思政课要让“天边”的榜样,走进学生心里
- 加拿大留学读硕士费用全解析
- 韩国留学跨专业申请可以吗
- 航天员刘伯明:为国出征 忠勇无畏
- 国家历史文化名城增至137座
- 外交部副部长乐玉成:将中格关系发展机遇转化为更多合作成果
- 初中生留学日本有哪些建议
- 专家:“美丽中国中脊带”需研究资源、发展与未来等问题
- 国际同贺/俄航天局:中国又向前迈出自信一步
- 炎热升级!夏季版图扩至东北 这些地方进入最多雨时段
- 纽约大学管理与系统学如何申请
- 二等二学位申请英国埃克塞特大学硕士攻略