elastic(纽约证券交易所代码:estc)近日宣布推出一项基于代理的kubernetes调查工作流,以及基于模型上下文协议的可观测性技能。
该功能可在告警触发的同时自动诊断故障,当站点可靠性工程师(sre)打开告警时,根因分析、证据链和修复建议已准备就绪。对于大规模运行kubernetes的团队而言,从收到告警到找到答案的时间差,不仅延长故障时长、加剧服务中断影响,也让值班工程师疲惫不堪。
elastic通过自动启动调查流程,在工程师被呼叫前就开始工作,有效填补了这一空白。此项新能力建立在elastic已有的kubernetes仪表盘、预制告警模板和机器学习异常检测之上,提供两种加速排障的方式:一是当告警触发时自动运行诊断的智能调查工作流;二是将相同的调查能力集成到工程师日常使用的ai工具和集成开发环境中,如claude、cursor、vs code等。

ai代理能实时查询elasticsearch中的日志和指标数据,并直接在工具内呈现交互式视图,包括集群健康状态汇总、服务依赖关系图、异常详情、终端故障的爆炸半径分析以及告警规则管理。
elasticsearch凭借比同类产品高2.5倍的存储效率,确保工程师在调查事件时能够访问完整的运营上下文。elastic可观测性总经理bahaaldine azarmi表示:“凌晨3点被叫醒的工程师不想从头开始调查,他们想要答案。
通过本次发布,elastic在告警触发的那一刻就启动了调查流程,让团队能够更快、更有信心地解决问题。而且由于它运行在工程师已使用的工具内部,无需切换上下文,也无需学习新界面。
”elastic kubernetes集成(包含仪表盘、告警模板和机器学习异常检测)目前已向所有elastic cloud hosted、serverless和自管部署用户开放。
新的kubernetes调查工作流和mcp应用则处于技术预览阶段。
业内人士分析,elastic推出kubernetes智能调查工作流,助力sre快速定位故障的普及率有望在4年内翻一番。