大兴安岭信息港

当前位置:

IP城域网性能监测解决方案及实践

2019/04/25 来源:大兴安岭信息港

导读

1 性能监测技术(1)针对元性能的SNMP技术SNMP(简单络管理协议)主要用于周期性地轮询搜集元装备的各项性能指标,包括端口流量和

1 性能监测技术

(1)针对元性能的SNMP技术

SNMP(简单络管理协议)主要用于周期性地轮询搜集元装备的各项性能指标,包括端口流量和传输质量、设备和板卡性能、环境参数等。当数据超过阈值时,向故障管系统发送相干告警信息。

(2)端到端的络质量监测技术

端到端的络质量监测技术有SAA(ServiceAssuranceAgent,服务保证代理)和RFC2925(Definitions of Managed Objects for Remote Ping, TraceRoute, and Lookup Operations)两种。基于SAA和RFC 2925,我们可以采用Ping和TraceRoute两种经常使用的络质量监控手段,得到络端到端的时延、丢包率、抖动、路由情况和路径中每一跳的时延、丢包率和抖动等。

(3)基于Netflow的流量分析技术

在性能监测中,Netflow监测主要用于:检测AS的流量,掌握内对其他运营商的访问情况;对运用协议流量的监测,提供重要运用的统计分析;对指定协议的流量分析,掌握垃圾邮件、非法VoIP的使用者;对异常流量变化的判断,实现对络异常通讯的检测。

2 性能监测点的部署

(1)元性能采集点的部署

收集元性能数据时,可通过IP方式访问所监测的设备。当所监控的设备数量、参数较多时,可以采用任务负载均担,行将收集任务部署到不同的收集服务器上。这样做的好处是:1是可以减轻收集服务器的压力,避免当服务器产生故障时所有采集任务都不能有效履行;二是面对日趋庞大的络,平行扩大部署也是监测的要求。

在被监测路由器的选择上,应优先监测核心层路由器,其次是汇聚层路由器,是接入层设备。

(2)端到端性能收集点的部署

在部署端到端性能搜集服务器时,要求部署点能通过IP方式访问到发起端到端的相关路由器。与元性能收集器的部署相同,也需要支持平行扩大和负载均衡。在端到端任务中既要安排内-内线路的质量监测,也要安排内-外线路的质量监测。

(3)流量分析搜集点的部署

为了实现对被监测城域的所有流量进行分析,首先需要合理地设置流量采集点。收集点的设置非常关键,将直接影响到系统能否准确地对流量进行将全面分析。采集点设置在络核心层,核心层路由器之间的互联端口不需要开启Netflow,核心节点路由器对外的互联端口开启Netflow流量收集。优点是被采集的路由器数量少,因此管理比较简单,配置工作量比较小,同时出口流量的分析也是监测时为关心的情况。

3 性能监测的功能需求

IP城域性能监测的功能结构如图1所示。

图1 IP城域性能监测的功能结构

(1)提供运维人员习惯的保护界面

要求整体保护页面简洁,操作简单,并提供强大的关联性。端到端络性能监测的展现采取矩阵集中方式。针对不同类型的装备,相干指标需要提供TOPN展现方式。

(2)提供准确的图形及报表

需要有折线图、饼状图等展现进出流量趋势、散布等,并能提供运维所需的报表,比如忙时络质量、平均络负载等。

(3)强大的络性能告警和预警功能

要求所监测的络性能参数可以设置多档阈值,超过阈值就提供相应级别的告警。这样即便装备仍处于正常运行,当性能发生异常时,也一样可以引发络维护人员注意,从而得到及时处理。

(4)对元具有性能快照功能

必要时,可以对全装备性能指标进行集中数据抓取,以便为络分析留下基础数据。

(5)必要的权限管理

可以对平常运维人员、质量评估人员、络计划人员开放不同的视图、报表和性能异常的告警页面,以做到权限集中管理。

4 实例:上海电信IP城域的性能监测

4.1监测种类繁多、数量庞大的元性能

目前,上海电信IP城域中接入层、汇聚层、核心层的装备近千台,触及多个厂商的几十种装备类型。根据监测要求,性能监测需要在5min内完成4.5万个OID(ObjectIdentifier,对象标识)的采集、入库等,平均150次/s,这无疑对收集系统提出了很高的性能要求。

针对设备种类复杂的情况,系统为每类装备设计了采样模板和抽象的采样指标,将MIB值以及计算方法与采样指标相分离,做到快速响应并支持新络装备的监测要求。

在SNMP收集方面,为了提高性能,系统采取可平行扩大的设计方案,确保可以支持多个性能采集探头,提高整体采集能力。每一个收集探头的设计将任务管理和任务履行相剥离。任务管理模块以内存表的情势保存该探头需要履行的收集任务,主要负责搜集任务的接收、调度以及近历史数据的保存。任务执行模块主要履行任务管理模块调度的任务,基于SNMP对装备进行性能指标收集,并根据相应的算法获得终究数据。任务管理模块和任务实行模块之间以消息队列方式进行通讯,任务履行模块由多个进程组成,进程间构成对调度任务的竞争关系。

在数据入库方面,系统采取OracleProc批量入库方式,大大提高了入库效率。目前,在任务数据需要更新一次(实时性能表)记录、插入一次(历史性能表)记录的情况下,可以达到280条/s的处理能力,也就是可以支持5min内84000个指标的收集能力。

4.2对非Cisco设备进行端到端的测试

针对非Cisco设备,通过SAA采集端到端性能数据的方案有很大的局限性,而符合RFC2925标准的络监测探头就能弥补其缺陷。目前,在IP城域方面,上海电信基于Net-SNMP软件平台,自主开发了符合RFC2925的络质量探头,该探头运行在Linux操作系统的工控机上,可满足测量需求。

但在实际推行中,工控机相对价格昂贵,需要监测点的数量又较多,致使整体部署本钱较高。因此,基于ARM芯片的嵌入式系统替换工控机作为硬件支持平台成为大面积部署的必要条件,目前监测代理软件已移植到ARM9芯片的嵌入式硬件平台上,并成功研制出相关样机。该移植软件目前已通过软件认证中心的测试,同时申报了相干专利。与工控机相比,嵌入式设备具有硬件质量稳定(Flash替换硬盘)、部署本钱低、工作环境要求不高和系统维护方便等优点。

4.3基于Netflow的络流量长时间TOPN统计

在基于Netflow的数据流量监控系统中,大多数情况下是先搜集数据,然后存储到磁盘上再进行后续处理。处理效率在很大程度上取决于系统磁盘I/O的效力,尤其是对长时间流量数据的统计分析。

在现实际流量特性的情况下,在路由器上打开NetFlow,采样比例为100:1,NetFlow输出数据量约为络流量的0.038%。如果要保存NetFlow的原始数据量,且只保存城域入口流量数据的话,则一天约需要13GB的硬盘空间。对以天为单位的流量分析就要对13GB的原始文件进行扫描、聚合,故不能提供实时统计数据。

在上海电信IP城域性能监控系统中,引入一种基于数据流的新型数据处理应用。这类应用与传统运用区别是:数据按照时间序列顺次流过,没有边界,数据一般没法保存,而只能线性扫描,而从NetFlow数据的实际应用来看,具有比较明显的流数据特点。该处理模式主要是基于滑动窗口的数据流统计算法,解决了如何在滑动窗口上寻觅元素的近似计数和在数据流中寻觅误差参数为ε的频繁数据集问题,上述方法是基于线性扫描和分层处理技术实现的。

实验数据对比是分别基于数据流技术和第三方开源软件Flowtools统计的计算结果,测试端口为IPMAN中CiscoGSR设备连接骨干的端口。由实验数据可知,两种方式得到的结果近似,在计算24h的流量排名前20中,基于数据流技术计算结果仅19名和20名的顺序与Flowtools精确聚合计算的结果不同,但是采取数据流处理技术节约了磁盘存储空间并提高了查询效力。

4.4如何进行适当的性能预警

性能异常数据的告警是性能监测系统的重要功能。以往的系统往往采取数据库触发器、轮询等手段来监测异常,从而进行阈值告警,但是当这些技术手段面对大数据量的阈值判断压力时,常常显得处理能力不足。另外,随着监测要求的提高,固定阈值告警、基于动态模型的阈值告警、相关性阈值告警需求纷纷出现。

固定阈值告警的指标一般是CPU利用率、内存利用率、温度、电压、时延、丢包、抖动、特定流量所占百分比等,上海电信IP城域监测系统对此类判断需求是通过采取排序内存表方式来保存阈值信息,根据阈值组ID查找每一个搜集任务的相干阈值,顺序作出阈值比较,并支持对一个指标的多级告警,还可以进行一个指标大于、等于、小于、不等于、上下阈值之间、上下阈值之外的判断。

针对基于动态模型的阈值告警,系统需要对相干指标的历史数据进行统计,比如对端口出入流量、出入包的告警。随着络忙时、闲时的不同散布,这些指标出现出很强的时间性,但是闲时偶尔出现异常高的流量压力应引发络管理人员的关注和重视。因此,上海电信IP城域性能监测系统将对重点端口的流量进行基于动态模型的阈值监测,首先将利用数据发掘分析工具生成动态模型(可以按均值或权重),然后将收集数据和对应时间段内的模型数据进行比较,在阈值比率范围外的性能数据均视为异常。

针对相关性阈值监测主要基于主向量分析的方法,应用于端口流量字节、包数目不同步增减的情况。比如有些病毒爆发时数据包数持续增长、流量字节变化不大,这时运用主向量分析的方法能检测出两个指标不同步增长的情况,从而到达异常预警效果。

5 结束语

对IP络的性能监测是一个较为复杂的工程,触及的装备种类多,处理能力要求高。如何利用好主流的性能监测技术,构建易于扩大的系统架构以及采用丰富的展现手段是IP络性能监测建设成败的关键。因此,在管建设初期就应当多了解相干监测技术、数据库技术、软件架构技术;根据需求进行调研;在系统设计阶段应充分斟酌技术的公道使用,搭建适用的络监测环境,将络性能的监测工作、保护工作做好。

痛经该怎么治疗
经期小腹胀痛怎么调理
月经推迟经量少怎么调理
标签