新闻详情

张林:AI大模型在网络运维中应用的探索

70
发表时间:2025-08-05 16:46

2025年6月26日,“网络根基 中国贡献”第四届下一代DNS发展论坛,同期活动“筑牢网络根基 赋能金融科技”——金融网络基础设施工作会上,中国光大银行架构师张林,就《AI大模型在网络运维中应用的探索挑战》作主题分享。


图片


通过同业调研,张林发现,几乎所有企业都在尝试将大模型引入运维环境,但实际进展缓慢。"当时我认为大模型投入产出比低,多用于知识库而非生产力工具,直到今年初DeepSeek的出现彻底改变局面,其极低的部署成本让个人电脑运行32B模型成为可能”。


但在实践过程中,张林表示,“大模型具体应用到什么场景,大家仍没有太多概念”。他列举了两类典型AI实际应用失败的场景:一方面是大模型写步骤、查文档或出报表,代替自动化工具,结果却不理想。如变更步骤需100%准确率,但AI一定会存在错误率;在查阅文档时,如IRG知识库中,AI分不清版本差异,检索结果常遗漏关键信息。“一本正经的胡说,导致我需要花更多的力气帮它作补充和复核,实际的工作量并没有降低”。另一方面是AI的记忆缺陷,对话超长后,AI会遗忘早期内容。张林表示,转折点出现在一次IP地址整理任务:"这种简单但耗时的工作,AI仅需十秒就完成需手工操作1小时的整理。虽然仍然需要人工复核,做不到100%正确,但效率已经提升很多。"


由此,张林提出,要把AI当作“同事”而非工具,利用AI对自然语言的理解能力。"当接受AI会犯错,AI不是用来替代工具,而是替代我们来使用工具完成任务,我们要做的是让它像人一样思考和工作。”并指出,“当将AI看作‘人’的时候,你会发现他知识渊博、一点就通、任劳任怨、情绪稳定、不要工资(部署成本低)、随叫随到。他跟工具完全不同,他能听懂人话,会思考,也会犯错,更像我们自己。”


在应用场景中,如变更管理智能体协作。现有的变更自动化,已实现从变更需求到生成步骤、下发、通知验证等自动步骤。但张林指出,这个自动化并不完全自动。首先,变更需求由用户提出,由于评估规则太多,而且可能经常更新,自动化评估工具在尝试几次之后就放弃了。因为评估是零和博弈,只要有一点不可信,那就得继续投入人力评估。张林表示,评估小组环节一般都要消耗大量人力,且容易发生漏评。运维的要求是100%变更成功率,变更生成的步骤需要人再次复核,最后也需要人对实施结果进行验证。


引入AI后,需求评估方面,设计总体分配任务的负责人智能体,负责分析用户需求涉及哪些管理员的智能体,然后将需求发给相关管理员评估,评估后结果给负责人智能体进行汇总,生成评估意见及原因;变更步骤复核方面,智能体的知识库中包含所有历史变更步骤及常见错误,对生成的步骤进行复核,通过更专业化的细分,提高变更复核的准确率,如防火墙的步骤会由防火墙的智能体复核、交换机的步骤会由交换机的智能体复核;在变更验证方面,智能体的验证分两部分,一是对步骤下发的正确性和完整性进行验证,二是对整体运行情况进行巡检,含日志、吞吐、利用率、监控告警等。由此,实现不改变现有流程,更容易落地,可逐步上线,人工可随时干预结果,管理员也可通过自然语言“一对一”培训,实现经验传递等效果。


再以事件处置为例,张林表示,通常事件处置非常依赖事件经理和专家的能力,需要对环境了解,有丰富的运维经验,对微小异常的敏感度。如果这些能力都让一个工具去实现,它需要具备异常丰富的专业知识,历史所有运维事件处置经验,同时处理大量的外部告警、日志、设备状态信息,很难实现,应当换个部署思路。可模拟人类处置流程,由一个负责人智能体发起各专业智能体的巡检任务,开展各系统及设备的巡检,汇总巡检结果,结合告警信息和历史经验,根据多种可能性派发任务给专业智能体进行验证,专业智能体将排查结果反馈给负责人智能体,如果可以定位,则给出解决方案,如果不能定位,则根据新信息重新分析给出新的可能性,继续循环。


关于单个AI智能体需要的技术支持,张林指出,有两个关键问题要解决。一是如何让AI感知我们的运维环境,从外部获取信息。张林表示,目前主流的解决方案是通过MCP协议,MCP协议提供了⼀种标准化接口,让大模型能够自主调用外部系统,实现对运维环境的有效感知。“最新的开源模型已经内置了对MCP协议的支持,我们仅需要开发我们对应环境的接口,然后告诉大模型调用什么样的接口去获取什么数据,大模型即可根据实际需求去换取信息,比如IP地址信息、设备状态、日志、配置等等。这就像是给AI装上了眼睛、耳朵和双手,让它能看懂、听懂、操作我们的环境”。


二是解决AI的记忆力问题。张林表示,技术上讲,大模型本身并没有记忆功能。它看似能记住之前的对话,是因为每次给它输入的问题里都包含了之前的对话记录。但AI一次能接收的文本长度是有限的,这导致AI无法记住长期的历史信息,是大模型应用的一个核心难点。


张林指出,目前最常用的方法之一是RAG,也就是检索增强生成。当AI需要回答问题时,先去查询一个外部的知识库,基于相关文档内容来生成答案。优点是知识更新非常灵活,不需要重新训练模型。但想要效果更好,知识库的文档需要进行预处理,然后加上知识图谱,让检索更精准。


另一种方法是结合数据库。对于结构化的数据,如设备配置表、告警记录、性能指标等,可以将其存储在数据库里,然后让大模型通过MCP接口调用数据库查询接口来获取数据。张林表示,这种方法对于处理结构化数据非常高效,可以支持复杂的查询操作。


关于AI替代人类的担忧,张林表示,可能会有部分岗位被替代,但同时也会催生很多新的岗位。提出技能需要转型,从单纯的操作执行,转向策略制定、数据分析、智能体优化,人类的创新思维、复杂问题解决能力和伦理判断,仍是AI无法复制的核心能力。


ZDNS

更多专家精彩观点,请持续关注


_______________
_______________
_______________
_______________
ZDNS
核心网络设备
ZDNS Cloud
顶级域名
友情互联:
_______________________________________________________________________________________________________________________________
邮箱:support@zdns.cn
7*24小时客户服务
咨询电话:400-6688-876
标签:
请输入要描述的内容进行内容补充 请输入要描述的内容
01
03
请输入要描述的内容进行内容补充 请输入要描述的内容
_______________________________________________________________________________________________________________________________
互联网域名系统北京市工程研究中心有限公司 版权所有 © 2025 
官方微信
DDI网络核心服务
顶级域名申请
IP 地址管理
DNS 安全
智能 DNS
域名资质
两地三中心
流量调度
DNS 云解析
新顶级域直通车
________________________________________________________________________________________________________________________________