本发明涉及智能运维,尤其涉及一种故障自愈方法与系统。
背景技术:
1、当今智能化运维技术迅速推进,对如何高效且智能地调度任务执行及加速业务服务恢复提出了更高要求。尽管当前自动化运维已覆盖众多基本操作,但面对某些特定情境下的简单运维处理,仍需人工介入,这不仅消耗人力资源,也限制了运维效率的进一步提升。因此,迫切需要对重复性高、规律性强的运维工作进行全面梳理,以实现自动化故障响应,从根本上降低人力运维成本,提升系统运维的智能化水平和故障恢复的效率。
技术实现思路
1、本发明要解决的技术问题是:针对现有技术的上述缺陷,提供一种故障自愈方法与系统,实现自动化故障响应。
2、为实现上述目的,本发明提供了一种故障自愈方法,所述方法包括以下步骤:
3、步骤s1,将运维动作原子化,固化成运维动作组件;
4、步骤s2,针对常见故障将运维动作组件编排成处理各个故障的任务模板,并录入各动作组件的个性化信息,所述个性化信息包括运维目标服务器ip地址;
5、步骤s3,服务平台读取到故障告警信息之后,根据故障类型和所述任务模板生成实时任务,并将所述实时任务信息保存到实时任务队列;
6、步骤s4,部署在各运维目标服务器的探针服务监控实时任务队列,当探针服务所在服务器有待执行任务时,通过所述服务平台获取任务详情信息;
7、步骤s5,所述探针服务根据所述任务详情信息执行故障恢复任务,并向所述服务平台发送任务执行进度及结果,所述服务平台实时显示任务执行流程。
8、优选的,所述运维动作组件包括可视化单元及可执行单元;所述可视化单元用于任务编排,所述可执行单元用于运维动作执行。
9、优选的,借助可视化作业编排模块,以人工拖拽的方式将运维动作组件编排成处理各个故障的任务模板。
10、优选的,所述步骤s2中,通过ai平台将可视化运维动作组件自动编排成处理各个故障的任务模板。
11、优选的,所述实时任务队列为redis,所述redis中各数据项的key值中包括实时任务对应的运维目标服务器的ip地址。
12、优选的,所述探针服务与服务平台之间采用基于tcp的私有数据协议通信。
13、优选的,所述私有数据协议的消息包括10个字节的消息头和变长的消息体,所述消息头包括2个字节的魔数、4个字节的包长度、4个字节的校验码,所述消息体包括加密、压缩后的二进制消息内容。
14、优选的,所述步骤s5之后还包括:
15、所述服务平台检查故障是否恢复,并记录任务执行结果及检查结果。
16、本发明还提供了一种故障自愈系统,所述系统包括服务平台和探针服务,其中:
17、所述服务平台包括组件模块、可视化编排引擎、实时任务生成模块;
18、所述组件模块用于提供运维动作组件;
19、所述可视化编排引擎用于将所述运维动作组件编排成运维任务模板;
20、所述实时任务生成模块根据接收到故障信息和所述运维任务模板生成实时任务,并将实时任务信息保存到实时任务队列;
21、所述探针服务部署于各运维目标服务器,与所述服务平台基于tcp的私有数据协议进行通信;所述探针服务监控实时任务队列中有新的待执行任务后,通过所述服务平台获取任务详情请求,根据任务详情执行故障恢复任务,向所述服务平台反馈任务执行情况。
22、优选的,所述服务平台还包括能力开放接口,所述能力开放接口将服务平台的能力开放给外部系统。
23、本发明具有如下有益效果:本方案梳理日常运维工作,将可自动执行的运维动作原子化,固化成标准组件,针对常见故障将运维动作组件编排成不同的任务模板,服务平台读取到故障告警信息之后,根据故障类型和任务模板生成实时任务,将实时任务信息保存到实时任务队列,部署在各运维目标服务器的探针监控实时任务队列,判断到本服务器有待执行任务时,通过服务平台获取任务详情执行故障恢复任务,并向所述服务平台反馈任务执行情况。本发明的方案实现了故障自愈,降低了人力运维成本,提升了系统运维的智能化水平和故障恢复的效率。
1.一种故障自愈方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的故障自愈方法,其特征在于,所述运维动作组件包括可视化单元及可执行单元;所述可视化单元用于任务编排,所述可执行单元用于运维动作执行。
3.根据权利要求1所述的故障自愈方法,其特征在于,所述步骤s2中,借助可视化作业编排模块,以人工拖拽的方式将运维动作组件编排成处理各个故障的任务模板。
4.根据权利要求1所述的故障自愈方法,其特征在于,所述步骤s2中,通过ai平台将可视化运维动作组件自动编排成处理各个故障的任务模板。
5.根据权利要求1所述的故障自愈方法,其特征在于,所述实时任务队列为redis,所述redis中各数据项的key值中包括实时任务对应的运维目标服务器的ip地址。
6.根据权利要求1所述的故障自愈方法,其特征在于,所述探针服务与服务平台之间采用基于tcp的私有数据协议通信。
7.根据权利要求6所述的故障自愈方法,其特征在于,所述私有数据协议的消息包括10个字节的消息头和变长的消息体,所述消息头包括2个字节的魔数、4个字节的包长度、4个字节的校验码,所述消息体包括加密、压缩后的二进制消息内容。
8.根据权利要求1所述的故障自愈方法,其特征在于,所述步骤s5之后还包括:
9.一种故障自愈系统,其特征在于,所述系统包括服务平台和探针服务,其中:
10.根据权利要求9所述的故障自愈系统,所述服务平台还包括能力开放接口,所述能力开放接口将服务平台的能力开放给外部系统。