“数智互联,瞰见未来”2023第六届上海人工智能大会近日圆满闭幕,必示科技作为智能运维行业代表企业,受邀出席并分享题为《AI赋能金融运维领域的落地与应用》的主题演讲。
本届上海人工智能大会由中国科学技术协会指导,中国国际科技促进会,中国民营科技实业家协会专精特新专委会,长三角人工智能发展联盟,长三角数字化转型公共服务平台主办;上海市突出贡献专家协会,上海市人工智能学会,上海市计算机学会,上海士研管理咨询有限公司承办;中小银行互联网金融(深圳)联盟,“一带一路”信息产业国际发展联盟,上海大数据联盟联合主办,是国内人工智能领域产-学-研交融互动的年度盛会。必示科技作为智能运维企业代表,与现场的顶级学者和业内著名技术大咖一道,共同探讨人工智能的学术、人才、技术以及行业发展痛点,探讨人工智能的发展路径及未来愿景。
在“数字赋能”AI+金融科技主题论坛上,必示科技资深算法专家殷康璘在题为《AI赋能金融运维领域的落地与应用》的演讲中,分享了必示科技近几年利用人工智能技术赋能金融运维领域的产品落地经验。
必示科技资深算法专家殷康璘博士
AIOps(智能运维)的本质是将AI技术与传统IT运维领域生态深度融合,利用AI技术实现运维数据服务和运维专属AI服务。企业通过构建智能运维平台,加速智能运维场景落地,助力运维提质增效,赋能行业数智化升级。
一方面,智能运维既隶属于国家的战略领域,也是在银行、证券、保险等金融行业数字化转型的大背景下运维行业的发展方向,同时银保监会、中国人民银行等机构近两年也在金融科技、数字化转型等方面对智能运维提出了实质性的要求。另一方面,当前新技术、新应用导致IT系统环境管理规模、复杂性、要求迅速提升,传统的“监、管、控”工具需要调整以适应混合架构的管理要求,同时需要具备运维数据分析的能力,这些对传统运维团队都提出了从技术到管理的全面挑战。
智能运维(AIOps)概念提出到实施落地已有多年,伴随着业界一些AIOps项目的落地实施,业内逐渐对智能运维的价值、效果和建设路径等方面产生疑惑。作为深耕于金融行业智能运维产品研发与落地实施的国家高新技术企业-必示科技,通过服务60余家金融头部企业的经验,经过多年的技术探索和工业实践,总结出了聚焦智能运维落地效果方面的方法论:即目标明确、人机协同、多方协作、持续运营。
必示科技经过持续的技术研发、工业实践和产品迭代,推出了满足AIOps事前、事中、事后阶段均对“运维系统稳定性”产生价值和效果的必示智能产品矩阵。
发生即发现:智能监控+智能事件管理平台
必示智能监控产品对实时数据流进行动态监测。提前发现异常并生成故障预警,故障发现准确率95%以上。平均故障发现时间下降至5分钟内,最快可达30秒。
告警管理是运维过程中不可或缺且耗时耗力的工作。传统告警管理平台,多数仅聚焦于告警的集中管控,缺乏对告警的分析及结论推荐。必示智能事件管理平台,在实现告警全生命周期集中管控的基础上,结合先进的告警分析算法,实现“关键告警一屏清”、“故障排查有方向”、“告警治理有保障”等运维目标。
某银行使用必示智能运维产品后,无论从系统覆盖和监控点的数量、分析维度均有较大幅度的提升,同时分析链路上也从调用链路分析升级到了全局交易链路分析。
必示智能监控平台通过无监督学习算法,支持数十万级指标实时检测。通过智能检测实现动态阈值调整,以及曲线特征自动提取和选择、聚类算法使用、自动敏感度调整等技术创新,使故障发现准确率95%以上,平均故障发现时间下降至5分钟内,最快可达30秒。从源头上减少告警数量,提升告警发生时告警发现和处理效率,
通过智能摘要分析实现多维度多视角的告警分析报告。从传统的盯告警列表变成看摘要报告,帮助一线运维人员或者应急值班经理实现分钟级的故障定界,加速故障排查和处置,特别适用于处理告警风暴的场景。
在大规模故障发生时,通过针对重要业务,构建告警智能分析大屏,实现从告警风暴识别、告警路径分析到可疑应用推荐的全栈能力。而在重保场景下对告警数据进行实时智能分析,从而保障业务的健康度和业务连续性。
发现即定位:故障定位分析
故障排查是运维人员最复杂且最心累的工作。目前故障排查基本通过多团队协作,人工收集信息,并凭经验做决策判断,整个过程效率低,时间长。必示智能故障分析平台利用各种AI检测技术,自动化专家排障经验,实现对70%以上故障的分钟级精准排查,降低故障恢复时间,减少业务损失。
传统排障的典型场景是:凌晨3点20,一线值班人员接到oracle告警并电话通知二线值班工程师,二线要起床从宾馆赶到ECC,登录到Grafana查看具体原因。这个过程至少应该10-15分钟。而二线值班工程师排障过程更是根据经验判断,需要多团队写作、人工收集信息,并凭借经验做判断决策,排障时间也因故障程度和排障难度而不受控制。
必示故障分析平台可以通过告警拓扑展现和自动根因推荐,提升排障效率,实现分钟级排障。通过排障图的方式固化排障经验,来沉淀运维专家经验。当故障发生时可按照排障图去自动摸排根因,像运维专家亲临现场。同时,通过自动识别CMDB数据的缺失、异常和错误,自动判断关键告警缺失,为数据治理提供依据和方向。某银行银行使用智能故障分析系统快速发现故障后,在接到告警后的处置情况如下:
提前发现风险:必示风险感知平台
70%以上运维生产事故是由变更引起,目前变更问题发现主要靠人工检查和经验判断的方式经常出现错查漏查的情况,必示智能变更风险感知平台通过人机协同的方式帮助运维人员减少90%的变更验证时间并有效发现60-80%的变更风险隐患。
某客户在部署风险感知平台后,在某应用系统夜间变更,风险感知平台在变更后10分钟启动变更风险检查,针对该系统和相关交易码的业务指标在变更前后的变化进行分析,发现变更后该系统业务指标与多个易码业务指标均存在明显异常,包括系统级风险4项、交易码风险7项、主机风险72项。提醒客户关注变更异常问题。管理员和项目组确认问题后,及时进行了版本回退,避免了严重运行风险的产生。
必示变更风险感知平台提供灵活的任务模板编排能力,基于运维专家对业务场景的理解和风险检查经验,内置丰富的风险检查智能算子,能够封装不同领域对象、不同类型指标,支持用户根据自身业务特点、场景需求来积极探索人机协同模式下的更多个性化风险感知场景,提升场景上线效率,加速场景落地。
总结:
必示科技的智能运维产品矩阵,利用人工智能技术赋能金融行业的运维系统,平台产品包括:提前发现风险-智能风险感知平台、事件发生即发现-智能监控平台&智能事件管理平台、发现即定位-智能故障分析平台,从事前预警和预防、事中快速发现和定位、事后经验知识沉淀三个方面助力企业提升智能运维平台能力,降低MTTR,延长MTBF。
未来,必示科技进一步明确“具有清晰可度量的运维价值”的产品定位, 以人工智能技术和工匠精神,推动智能运维产品力和创新力的提升,助力金融企业系统运行风险防范,加速必示智能运维矩阵,在金融行业高质量落地,助力金融企业数智化转型。