本公开涉及计算机网络,并且更具体地,涉及对从网络设备接收的遥测数据的分析。
背景技术:
1、计算机网络是可以交换数据和共享资源的互连计算设备的集合。各种各样的设备操作以促进计算设备之间的通信。例如,计算机网络可以包括路由器、交换机、网关、防火墙以及各种各样的其他设备,以提供并促进网络通信。
2、这些网络设备通常包括诸如管理接口的机制,以用于本地或远程配置设备。通过与管理接口交互,客户端可以执行配置任务以及执行操作命令,以收集并查看所管理的设备的操作数据。例如,客户端可以配置设备的接口卡,调节所支持的网络协议的参数,指定设备内的物理组件,修改由路由器维护的路由信息,访问驻留在设备上的软件模块和其他资源,并且执行其他配置任务。另外,客户端可以允许用户查看当前操作参数、系统日志、与网络连接相关的信息、网络活动或来自设备的其他状态信息,并且查看从设备接收的事件信息并对其作出反应。
3、网络配置服务可以由多个不同的设备执行,诸如具有服务卡和/或专用服务设备的路由器。这样的服务包括连接服务,诸如第三层虚拟私有网络(l3vpn)、虚拟私有局域网服务(vpls)以及对等(p2p)服务。其他服务包括网络配置服务,诸如dot1q vlan服务。网络管理系统(nms)和nms设备(也被称为控制器或控制器设备)可以支持这些服务,使得管理员可以容易地创建并管理这些高级别网络配置服务。
4、具体地,设备的用户配置可以被称为“意图”。基于意图的联网系统允许管理员描述预期的网络/计算/存储状态。用户意图可以被分类为业务策略或无状态意图。可以基于网络的当前状态来解析业务策略或有状态意图。无状态意图可以是在无需关注当前网络状态的状态下描述预期的网络/计算/存储状态的完全声明性方式。
5、意图可以表示为可以使用统一图形来建模的意图数据模型。意图数据模型可以表示为连接图形,使得可以跨越意图数据模型来实现业务策略。例如,数据模型可以使用连接图形来表示,该连接图形具有与具有边(has-edge)和引用边(reference(ref)-edge)连接的顶点。控制器设备可以将意图数据模型建模为统一图形,使得意图模型可以表示为连接的。以此方式,可以跨越意图数据模型实现业务策略。当使用统一图形模型对意图进行建模时,扩展新意图支持对扩展图形模型和编译逻辑的需要。
6、为了配置设备以执行意图,用户(诸如管理员)可以编写转换程序,该转换程序将高级别配置指令(例如,符合意图数据模型的指令,其可以表示为统一图形模型)转换成低级别配置指令(例如,符合设备配置模型的指令)。作为配置服务支持的一部分,用户/管理员可以提供意图数据模型以及意图数据模型到设备配置模型之间的映射。
7、为了简化对于用户的映射定义,控制器设备可以被设计为提供以简单方式定义映射的能力。例如,某些控制器设备提供了速度模板和/或可扩展样式表语言转换(xslt)的使用。这样的转换器包含从意图数据模型到低级别设备配置模型的转换或映射逻辑。通常,意图数据模型中相对较少数量的改变影响跨越设备配置的相对大的数量的特性。在从意图数据模型中创建、更新和删除服务时,可以使用不同的转换器。
技术实现思路
1、一般而言,本公开描述了用于执行根本原因分析以检测所管理的网络设备的问题的技术。网络管理系统(nms)设备(在本文中也被称为控制器设备)可以配置网络设备以将遥测数据发送给分析设备。分析设备可以将多元人工智能(ai)模型应用于遥测数据,以检测遥测数据中的异常。在检测到一个或多个异常之后,分析设备可以对异常执行根本原因分析,以确定引起一个或多个异常的问题的根本原因。
2、在一个示例中,一种对多个网络设备执行根本原因分析的方法包括:从多个网络设备接收遥测数据;将在历史遥测数据上训练以检测历史遥测数据中的异常的人工智能(ai)模型应用于所接收的遥测数据,以检测所接收的遥测数据中的一个或多个异常;以及对异常执行根本原因分析,以确定引起一个或多个异常的问题的根本原因。
3、在另一示例中,一种用于对多个网络设备执行根本原因分析的系统包括一个或多个处理器,该一个或多个处理器被实现在电路系统中并且被配置为:从多个网络设备接收遥测数据;将在历史遥测数据上训练以检测历史遥测数据中的异常的人工智能(ai)模型应用于所接收的遥测数据,以检测所接收的遥测数据中的一个或多个异常;以及对异常执行根本原因分析,以确定引起一个或多个异常的问题的根本原因。
4、在另一示例中,一种计算机可读存储介质在其上存储有指令,该指令在被执行时,使处理器:从多个网络设备接收遥测数据;将在历史遥测数据上训练以检测历史遥测数据中的异常的人工智能(ai)模型应用于所接收的遥测数据,以检测所接收的遥测数据中的一个或多个异常;以及对异常执行根本原因分析,以确定引起一个或多个异常的问题的根本原因。
5、在附图和以下描述中阐述了一个或多个示例的细节。从说明书和附图以及从权利要求中,其他特征、目的和优点将是显而易见的。
1.一种对多个网络设备执行根本原因分析的方法,所述方法包括:
2.根据权利要求1所述的方法,还包括:在接收所述遥测数据之前,在所述历史遥测数据上训练所述ai异常检测模型和所述ai根本原因分析模型。
3.根据权利要求1所述的方法,其中,ai模型包括多元ai模型。
4.根据权利要求1所述的方法,还包括:使用所接收的遥测数据来更新ai模型。
5.根据权利要求1所述的方法,其中,所述多个网络设备包括一个或多个控制节点以及一个或多个计算节点。
6.根据权利要求1所述的方法,其中,所接收的遥测数据用于多元时间序列。
7.根据权利要求1所述的方法,其中,执行所述根本原因分析包括:使用因果ai算法来执行所述根本原因分析。
8.根据权利要求1所述的方法,还包括:确定一个或多个应用编程接口api,针对所述一个或多个应用编程接口api接收遥测数据。
9.根据权利要求1所述的方法,还包括:确定一个或多个关键性能指标kpi,针对所述一个或多个关键性能指标kpi接收遥测数据。
10.一种用于对多个网络设备执行根本原因分析的系统,所述系统包括一个或多个处理器,所述一个或多个处理器实现在电路系统中并且被配置为:
11.根据权利要求10所述的系统,其中,所述一个或多个处理器还被配置为:在接收所述遥测数据之前,在所述历史遥测数据上训练所述ai异常检测模型和所述ai根本原因分析模型。
12.根据权利要求10所述的系统,其中,ai模型包括多元ai模型。
13.根据权利要求10所述的系统,其中,所述一个或多个处理器还被配置为使用所接收的遥测数据来更新ai模型。
14.根据权利要求10所述的系统,其中,所述多个网络设备包括一个或多个控制节点以及一个或多个计算节点。
15.根据权利要求10所述的系统,其中,所接收的遥测数据用于多元时间序列。
16.根据权利要求10所述的系统,其中,为了执行所述根本原因分析,所述一个或多个处理器被配置为使用因果ai算法来执行所述根本原因分析。
17.根据权利要求10所述的系统,其中,所述一个或多个处理器还被配置为确定一个或多个应用编程接口api,遥测数据是针对所述一个或多个应用编程接口api接收的。
18.根据权利要求10所述的系统,其中,所述一个或多个处理器还被配置为确定一个或多个关键性能指标kpi,遥测数据是针对所述一个或多个关键性能指标kpi接收的。
19.一种计算机可读存储介质,在所述计算机可读存储介质上存储有指令,所述指令在被执行时,使处理器:
20.根据权利要求19所述的计算机可读存储介质,还包括使所述处理器使用所接收的遥测数据来更新ai模型的指令。