通过同业调研,张林发现,几乎所有企业都在尝试将大模型引入运维环境,但实际进展缓慢。"当时我认为大模型投入产出比低,多用于知识库而非生产力工具,直到今年初DeepSeek的出现彻底改变局面,其极低的部署成本让个人电脑运行32B模型成为可能”。
但在实践过程中,张林表示,“大模型具体应用到什么场景,大家仍没有太多概念”。他列举了两类典型AI实际应用失败的场景:一方面是大模型写步骤、查文档或出报表,代替自动化工具,结果却不理想。如变更步骤需100%准确率,但AI一定会存在错误率;在查阅文档时,如IRG知识库中,AI分不清版本差异,检索结果常遗漏关键信息。“一本正经的胡说,导致我需要花更多的力气帮它作补充和复核,实际的工作量并没有降低”。另一方面是AI的记忆缺陷,对话超长后,AI会遗忘早期内容。张林表示,转折点出现在一次IP地址整理任务:"这种简单但耗时的工作,AI仅需十秒就完成需手工操作1小时的整理。虽然仍然需要人工复核,做不到100%正确,但效率已经提升很多。"
由此,张林提出,要把AI当作“同事”而非工具,利用AI对自然语言的理解能力。"当接受AI会犯错,AI不是用来替代工具,而是替代我们来使用工具完成任务,我们要做的是让它像人一样思考和工作。”并指出,“当将AI看作‘人’的时候,你会发现他知识渊博、一点就通、任劳任怨、情绪稳定、不要工资(部署成本低)、随叫随到。他跟工具完全不同,他能听懂人话,会思考,也会犯错,更像我们自己。”
在应用场景中,如变更管理智能体协作。现有的变更自动化,已实现从变更需求到生成步骤、下发、通知验证等自动步骤。但张林指出,这个自动化并不完全自动。首先,变更需求由用户提出,由于评估规则太多,而且可能经常更新,自动化评估工具在尝试几次之后就放弃了。因为评估是零和博弈,只要有一点不可信,那就得继续投入人力评估。张林表示,评估小组环节一般都要消耗大量人力,且容易发生漏评。运维的要求是100%变更成功率,变更生成的步骤需要人再次复核,最后也需要人对实施结果进行验证。
引入AI后,需求评估方面,设计总体分配任务的负责人智能体,负责分析用户需求涉及哪些管理员的智能体,然后将需求发给相关管理员评估,评估后结果给负责人智能体进行汇总,生成评估意见及原因;变更步骤复核方面,智能体的知识库中包含所有历史变更步骤及常见错误,对生成的步骤进行复核,通过更专业化的细分,提高变更复核的准确率,如防火墙的步骤会由防火墙的智能体复核、交换机的步骤会由交换机的智能体复核;在变更验证方面,智能体的验证分两部分,一是对步骤下发的正确性和完整性进行验证,二是对整体运行情况进行巡检,含日志、吞吐、利用率、监控告警等。由此,实现不改变现有流程,更容易落地,可逐步上线,人工可随时干预结果,管理员也可通过自然语言“一对一”培训,实现经验传递等效果。
再以事件处置为例,张林表示,通常事件处置非常依赖事件经理和专家的能力,需要对环境了解,有丰富的运维经验,对微小异常的敏感度。如果这些能力都让一个工具去实现,它需要具备异常丰富的专业知识,历史所有运维事件处置经验,同时处理大量的外部告警、日志、设备状态信息,很难实现,应当换个部署思路。可模拟人类处置流程,由一个负责人智能体发起各专业智能体的巡检任务,开展各系统及设备的巡检,汇总巡检结果,结合告警信息和历史经验,根据多种可能性派发任务给专业智能体进行验证,专业智能体将排查结果反馈给负责人智能体,如果可以定位,则给出解决方案,如果不能定位,则根据新信息重新分析给出新的可能性,继续循环。
关于单个AI智能体需要的技术支持,张林指出,有两个关键问题要解决。一是如何让AI感知我们的运维环境,从外部获取信息。张林表示,目前主流的解决方案是通过MCP协议,MCP协议提供了⼀种标准化接口,让大模型能够自主调用外部系统,实现对运维环境的有效感知。“最新的开源模型已经内置了对MCP协议的支持,我们仅需要开发我们对应环境的接口,然后告诉大模型调用什么样的接口去获取什么数据,大模型即可根据实际需求去换取信息,比如IP地址信息、设备状态、日志、配置等等。这就像是给AI装上了眼睛、耳朵和双手,让它能看懂、听懂、操作我们的环境”。
二是解决AI的记忆力问题。张林表示,技术上讲,大模型本身并没有记忆功能。它看似能记住之前的对话,是因为每次给它输入的问题里都包含了之前的对话记录。但AI一次能接收的文本长度是有限的,这导致AI无法记住长期的历史信息,是大模型应用的一个核心难点。
张林指出,目前最常用的方法之一是RAG,也就是检索增强生成。当AI需要回答问题时,先去查询一个外部的知识库,基于相关文档内容来生成答案。优点是知识更新非常灵活,不需要重新训练模型。但想要效果更好,知识库的文档需要进行预处理,然后加上知识图谱,让检索更精准。
另一种方法是结合数据库。对于结构化的数据,如设备配置表、告警记录、性能指标等,可以将其存储在数据库里,然后让大模型通过MCP接口调用数据库查询接口来获取数据。张林表示,这种方法对于处理结构化数据非常高效,可以支持复杂的查询操作。
关于AI替代人类的担忧,张林表示,可能会有部分岗位被替代,但同时也会催生很多新的岗位。提出技能需要转型,从单纯的操作执行,转向策略制定、数据分析、智能体优化,人类的创新思维、复杂问题解决能力和伦理判断,仍是AI无法复制的核心能力。