智能网络奠基石,一文看懂“遥测”全攻略
发布时间: 2019-09-17

01简单回顾

前二期给大家介绍了意图网络(IBN)和智能网络,展示了未来网络的美好情景,要实现它,对于网络具体有啥要求?今天我们就给大家介绍一下撑起智能网络的奠基石——大数据采集。

我们先简单回顾下《未来30年不落后的网络架构,智能网络》提到的牛逼哄哄的无人驾驶智能网络:

  • 系统可以识别高速公路上跑的各种类型的车(识别不同的业务),同时能保证特定类型车辆快速通过(关键业务保障),并且清楚的知道车的走走停停、油耗等情况(业务质量感知和质差分析)。
  • 系统可以发现汽车在高速上发生堵车的情况(故障主动发现),同时能判断是什么原因导致堵车(故障根源分析),可能是前方发生车祸、道路临时调整、异常车流进入等。
  • 系统可以预测道路上的车流量(流量预测),提前规划出行的时间,同时能预测前方道路拥堵情况(故障预测),避免发生多米诺骨牌式的连环相撞,后果不堪设想。

那么在网络世界里要如何去采集这里面涉及到的各种各样的数据呢,这就是我们接下来要说的遥测(Telemetry)。

02遥测是什么

遥测是对被测量对象的参数进行远距离测量的一种技术,起源于19世纪初,广泛应用于航空航天、军事、工业、生物研究、医学等等方面。比如发射卫星后,地面的卫星研究中心需要监测其运行状态,因为卫星的运行状态会受太阳光的压力和其它星球运动的影响而发生变化,这时候我们需要通过传感器去测量卫星的飞行速度、旋转速度、自旋轴的方向等等,然后靠高频的无线电波送回地面,进行分析。

 

同理,承载上面这些宏观业务的网络本身也可以进行遥测,通过对网络设备的数据进行远程高速采集和监控,提供更实时、更全面和更精细的网络监管能力。

随着网络规模的不断发展,设备越来越多,管理难度逐渐上升,为了保障各业务的正常运行和良好的终端用户体验,这项技术就显得愈发重要起来。

03遥测统观

  • SNMP

提起网络中的数据采集技术,首先想到的最简单的SNMP技术,SNMP可以采集到网络设备的CPU、内存、日志等信息,但缺点是无法采集到网络数据流量,无法判断链路拥塞情况。

拿公交运行来类比,相当于我们挨个站点问过去:诶,你这车流多少呀?站点状态怎么样?超负荷了吗?

那站点之间有多少车、有没堵车?Emmmmmm我们是不管的。

  • NetFlow、sFlow

再往上高级点的采集功能,有NetFlow、sFlow等,可以实现网络数据流量的采样和推送,但推送的是原始数据,需要进行二次数据加工分析;而且是按照一定比例采集的,不能反映整个网络链路的流量全貌,所以不能预测流量和拥塞;同时,网络设备的 CPU、内存、网络拥塞信息、网络事件日志信息等没有实时传递出来,无法判断是什么原因导致的拥塞。

相当于我们抽取一些车辆,在指定地方查看行车记录,看他什么时候经过了哪里,汇总分析后可以一定程度上判断的道路运行情况。

这时候有的同学可能已经嘴角上扬,一脸坏笑了。
老师!这题我会!把两个一起用起来不就好了吗?

如果将NetFlow和SNMP同时都部署到网络中,这些技术都要靠网络设备CPU进行处理,无疑增加了网络设备的负担,给网络稳定运行带来了不稳定因素。

  • Out-band Network Telemetry

还有一种叫带外网络遥测(Out-band Network Telemetry,ONT,简称带外遥测),可以有效改进采集不全和CPU负担等问题,带外遥测是通过监控设备单独发送探测报文,从而收集链路状态信息,类似在网络中部署一套长PING设备,通过PING网络中不同设备和主机,从而判断网络链路是否可达。相当于派出一辆辆连接检测的小车,看站点是否可达。

但它并不是最完美的方案,因为探测报文并不能覆盖所有转发路径和表项,有的网络链路故障仅仅是一条转发表项出问题,而探测报文只能走一条转发表项,大概率发现不了网络故障;另外探测报文虽少,但仍会占用少量带宽,造成网络带宽的一些浪费。

  • In-band Network Telemetry

上述技术都无法满足智能网络的部署需求,随着技术的进步,带内网络遥测(In-band Network Telemetry,INT,简称带内遥测)出现了。带内遥测技术是通过在数据层面收集和报告网络状态来实现对网络状态的监控,整个过程不需要控制层面参与;它是通过镜像出来的报文,并不改变原始业务报文转发路径;而且仅占很少部分的带宽,不会带来很大的CPU负担。

带内遥测的整体处理流程如下图所示:

报文达到首节点“①”,通过在交换机上设置的采样方式匹配并镜像出该报文,并在四层头部后插入INT头,将报文入端口Port ID、出端口Port ID、入端口时间、出端口时间、以及设备的DEVICE ID,封装成MetaData(简称MD),将MD插入到INT头部之后;

报文转发到中间节点,设备匹配到INT头部后,在INT头部后再插入一层MD;

报文转发到最后节点“②”,设备匹配INT头部后,再插入一层MD,并在报文外部封装一个IP头(ERSPAN),外层IP为监控服务器地址,这样INT报文便转发到监控服务器。
相当于我们在每个站点放个打标签的工具,每辆经过的车自动打个标识,最后把带有这些信息的车辆复制出来,本体则按原来的路线跑,不影响业务。

当然仅监控网络链路还不够,还需要监控网络设备的各种运行状态,在带内遥测的网络里用到了gRPC(Google Remote Procedure Calls),可以实现周期性推送网络设备的各种运行状态给监控服务器,INT+gRPC奠定了智能网络的基础。

04展望

数据就像是智能的燃料,更轻量更实时更全面更精细的采集方案一直是我们的追求。它帮助我们开启上帝视角,了解网络世界的一举一动。不仅仅是提高网络监管能力、提高网络安全和管理效率;它更是细化衡量业务质量、保障终端用户体验的基础;甚至,我们也可以用这些数据对意图执行进行持续验证、建立算法模型预测流量和故障、优化网络资源配置等等。随着锐捷相关设备、方案的面市,未来可期!

秒速时时彩走势