基于业务的网络管理系统

来源:百度文库 编辑:神马文学网 时间:2024/07/05 14:06:22
 
本方案基于Microsoft的平台: 本方案基于Microsoft的产品:
Windows 2000 Server Windows 2000 Server
SQL Server 2000

解决方案全称:基于业务的网络管理系统
开发商:中科院神州网信科技有限公司
一、开发背景
正如好的企业离不开严谨有序的管理,高效的网络同样离不开好的网络管理一样。在竞争日益激烈的信息化社会中,企业如何才能立于不败之地,一个运营良好的网络是不可或缺的因素。然而当今的网络构成纷繁复杂,因特网、广域网、内联网、局域网,每一个网络又由若干个大大小小的子网组成,集成了多种网络系统(NOS)平台,并且包括了不同厂家、公司的网络设备和通信设备等,再加上网络中许许多多网络应用软件提供的各种服务。这些特点使得网络故障的出现更加频繁、排除更加困难、维护成本直线上升、网络管理日趋复杂,用户对于自身网络的了解更加困难。同时随着网络的发展,网络上运行的业务种类也日渐繁多,以电信运营商为例,现在他们都部署了复杂的多业务网络,包括在高速网络上实现数据、语音和流媒体应用等,这就需要有强大的工具来管理这些网络资源。
纵观网络过去10年和未来10年的发展,我们可以看到这样的变化趋势:网络正在日益渗透到人类生活的方方面面,从我们每天使用的电子邮件、Web浏览、到电子银行、IP电话,网络逐渐已成为人类生活的一部分。但同时网络也正在变得日益复杂和失控,人们需要网络变得驯服、高效、可以信赖,而传统的网管,由于先天的局限性已难以适应这种变化的趋势。
由此,中科院计算所在多年实际项目运作经验和理论研究的基础之上,结合市场的反馈,逐渐明晰了研制网管产品的思路,现有产品主要为面向大型生产型网络的NIPMAS。大型的生产型网络,我们定义的标准是一般拥有500个节点以上的网络,存在大量的异构性,包括:网络系统结构异构、应用平台异构、数据异构等。对网络的依赖程度比较高:网络的质量直接影响企业的业务,如银行交易,证券买卖、IP电话。此类用户的日常业务对网络有极高的要求,每分钟有超过上百万的业务通过网络交易,网络一万发生故障损失将以百万计,网络的质量与其业务收益有密切的相关性。例:今年8月底,北京一证券商网络瘫痪,仅向股民赔付一项便超过千万元。今年9月,首都机场发生计算机网络故障,售票系统瘫痪,致使旅客滞留达两千多人。代表用户包括:电信、银行、证券业。
传统的网管软件往往以网络设备为主要管理对象,无法对用户业务进行监测和管理,很多时候网络的物理层和链路层是正常的,而用户仍然抱怨网络工作异常,这样的现象实际上对于传统的网管来说是难以解决的问题,这就为类似于NIPMAS这样的产品提供了一个很好的机会。我们的设计理念就是,网络的好坏不应该由网管软件来判断,用户的体验才是最好的标准。NIPMAS的市场定位就是弥补传统网管软件的不足,利用我们独到的主动测量技术,和传统的网管软件相配合为用户提供一个全方位的网管解决方案。由传统的网管软件来管理网络的物理设备,而NIPMAS来负责用户网络上运行的具体业务。
二、方案详细介绍
一、NIPMAS的技术特征
随着网络的广泛应用和网络管理的逐步深入,传统网管软件虽然可以帮助用户获得网络链路上某一组件的运行状况,但是,令网管人员头痛的是他们真正关注的由这些组件组合起来的业务通路的运营状况,也即端到端的网路状况,不能由系统表现出来。不仅如此,对于各大用户来说,随着网络基础建设的日趋完善,用户目光的聚焦点已更多的开始关注这样的问题:网络能够为企业业务提供什么样的服务;对于不同的业务应用,现有的网络能够提供的服务状况怎样;如果网络应用或者业务通路出现问题,该怎么办?哪些用户业务会受到影响?问题到底出在哪里?
然而由于管理策略和实现方法上的问题,传统网管在基于业务的角度管理网络方面尚不能为用户提供上述信息,而此类信息却又是用户真正关注的要点所在。为了帮助用户解决这一关键问题,NIPMAS引入基于业务的设计思想,采用与大多数网络管理不同的主动探测模式对网络进行监测和管理,为用户提供全面的端到端的看护。由于采用了这种主动探测的监测方式,NIPMAS系统很方便地就可以模拟多种高层网络应用,对网络的高层应用进行测试评估。这就为用户了解网络业务的运行情况提供了充分的数据,并为预警提供了充足的依据。
NIPMAS的主要系统特点如下: 可定制的基于业务的网络性能监测
由于网络上的业务很多,并且各种业务要求的网络资源也千差万别,NIPMAS系统可根据各种业务的特征,对业务数据的通讯过程进行模拟,从而监测各种网络业务在网络上的表现情况。但是业务种类的千差万别也给业务监测带来了许多不便。NIPMAS为了解决这个问题,同时为了适应不断推出的新业务,提出了可定制业务的概念。针对不同的用户需求,定制业务可以表现为两个方面 用户提供业务的详细描述,包括业务的协议描述以及交互流程,我们提供专门的测量模块进行对这种业务的测量。 运用模拟仿真技术,通过模拟各种用户业务,由用户主动进行测试,NIPMAS能 够向用户实时提供各种业务的运行状况,发现传统网管所不能发现的网络亚健康状况。并且可以根据用户需求定制特殊业务。 NIPMAS提供业务定制模块,用户可以进行自行定制业务。可以定制的内容包括 协议的端口号,IP包头中的分类字段,协议交互的具体过程,交互过程中每次发送数据包的大小,每次用户端接收到服务器应答后的处理时间等参数。
 
高可扩展的系统平台
网络在不断的迅速发展,随着网络技术的发展,网络业务也会不断的增加,这就要求,网络管理系统也要不断的适应快速增长的网络业务。NIPMAS的高扩展性主要表现在以下几个方面: 由于NIPMAS是一个建立在具有极好可扩展性架构之上的系统,并主要采用主动探测的方式。这就使得当增加网络业务时,我们只需在测量平台之中增加相应模拟器并在管理平台中添加相应配置即可。这样就使得NIPMAS系统可以轻松的对新增业务进行监测; NIPMAS系统的高扩展性还表现在可随时随地不限数额地添加测量平台上,只需在 控制平台和管理平台上添加相应信息即可。这样通过在不同链路上增加测量平台,可随时满足用户对侦测新添链路的需要,最大限度的节省用户的投资和时间; 由于我们采用的是灵活的主动测量方式,对于添加新的测量节点,我们所需要做的只是将节点地址加入测量列表就行了;
 
智能的专家系统
网络技术日新月异,网络环境复杂多变。传统的网络管理软件着眼于网络中单个设备的状况,而NIPMAS着眼于网络的整体状况。因此,NIPMAS将面对更复杂的环境,解决更为复杂的网络问题。例如,用户关心其某个业务的性能,一旦该业务性能发生问题,用户就需要知道是什么导致了该业务的性能问题,而这可能牵涉到应用系统和通信网络系统。为了应对这些复杂的情况,NIPMAS专家系统对于网络问题的发现,定位更加具有智能。这种能力并不是静态的,而是动态的。
专家系统本身具有自学习能力,它的知识库是可升级的。专家系统在实际的网络上运行越久,定位故障的能力就越强、速度就越快。
NIPMAS 系统拥有针对各种网络业务引发的故障进行处理建议的知识库,为用户提供故障的解决方案建议。通过不断的更新知识库,NIPMAS能够提示用户处理各种新增的网络故障。由于专家系统的知识库是可升级的,随着新知识的不断加入,整个系统会变得越来越强大,越来越智能。
 
独特的主动测量技术:
传统网管软件大都采用一种广为执行的网络协议SNMP(简单网络管理协议),它使用嵌入到网络设施中的代理软件来收集网络通信信息和有关网络设备的统计数据。代理不断地收集统计数据,如所收到的字节数,并把这些数据记录到一个管理信息库(MIB)中。为了能全面地查看一天的通信流量和变化率,管理人员必须不断地轮询SNMP代理,一天中每分钟就轮询一次。 轮询会产生巨大的网络管理通信量,因而导致通信拥挤情况的发生。 同时它将收集数据的负担加在网络管理控制台上。 管理站也许能轻松地收集8个网段的信息,但当它们监控48个网段时,恐怕就应付不下来。 容易截取用户的某些较为隐秘的信息,可能会对用户的隐私造成侵犯;
Nipmas的分布式探针以主动测量为主,强调安全性和保证隐私权;保证用户可以随时随地的了解到任意两条端--端链路间的运营状况
 
分布式数据采集与集中式管理相结合的系统结构:
分布于大型网络中的测量探针,通过主动发送探测包,分布式的采集数据,然后采用集中式的管理方式将数据汇总至控制平台和分析平台,即不会给用户网络增加很重的负担,又便于数据实时高效的采集处理,同时又保证了出现问题时能够迅速有效责任分明的进行管理。
二、NIPMAS的主要功能
严谨的体系结构,基于用户业务的高层管理,分布与集中相结合的管理模式,主动测量为主被动测量为辅的测量策略,与GIS系统的完美结合,智能的专家系统,强大的分析统计功能,人性化的告警方式……诸多站在用户角度的解决方案的有效结合赋予了NIPMAS系统下边这些强大功能。 准确的故障定位
NIPMAS提供实时的网络监测,当网络上出现故障时,NIPMAS将会迅速定位故障,并通过多种途径通知管理员。需要指出的一点是,这里的故障有别于一般网管软件中的故障。我们定义故障为用户认为不利的现象,因此它可能是一种应用的响应时间过长,也可能是一个业务通路的延迟、丢包率过大。而一般网管软件中定义的故障一般是针对网元设备的状况而言,比如路由器缓冲是否溢出,端口是否处于工作状况。这种故障定义是局部的,一般无法直接反映网络全局,及用户业务的状态。
NIPMAS系统通过独特的算法并借助于智能的专家系统,分辨出网络业务通路出现故障的位置 。在通信网络故障发生时,我们利用路由信息将故障定位到业务通路中的某一跳,并且进一步利用NIPMAS的分布式结构,通过不同NIPMAS探针的相互监测,计算出该故障是由于节点设备损坏或因为链路引起的故障。
NIPMAS通过强大的专家系统对测量数据进行分析,能精确地定位故障。能区分的故障主要可分为网络故障和系统故障。
应用系统的故障: 应用服务器宕机 应用服务程序崩溃 应用服务程序负荷过重
业务通路的故障: 节点崩溃 节点故障 端口失效 通信链路故障
 
强大的故障管理 故障查看:
采取树视图与列表视图相结合,左边显示系统故障和网络故障的具体分类,右边显示故障的详细信息,如故障的严重程度,确认情况,故障时间,故障源等,而且还有鲜明的色彩标识故障的严重程度,进入故障管理界面,你就会对各类故障一目了然;
另一方面,我们也可以根据业务的分类对故障进行详细查看;
故障过滤:
管理员只要轻点鼠标就可以获得自己最关心的信息,如,历史数据中最严重的警告,自己所关心的某条链路的告警状况,某段时间类的警告,某种业务的警告,等等。 故障统计:
故障统计,能对历史故障(如一周,一个月等)有一个整体感知,故障统计提供给用户一段时间类的各种统计信息:如某条链路一段时间类严重警告的百分比,某类故障在某种业务中出现的百分比;
 
灵活、实用的故障告警 基于业务的故障告警:
可以根据需要,定制不同的业务告警,不同的告警参数。 鲜明的告警界面
系统自动弹出告警界面:故障点所在的GIS放大图立刻映入眼帘,鲜红的故障链路频频闪动,明晰的简洁的文字忽隐忽显,同时告警声音连绵不绝,引起管理员的充分重视。用户可以选择自己喜爱的声音,动画来告警不同的业务。 人性化的告警设置
按照事先定义好的值班表,系统自动在不同的时间段,将当前的告警信息发送给不同的值班人员。 灵活多样的告警方式:
鲜明的告警界面为计算机前的用户提供实用的告警;除此之外,NIPMAS可以为远地的管理员提供告警信息;如果当前管理员有事外出,他在也不必为当前网络状况一无所知而担忧,NIPMAS将会通过以下方式及时将网络状况发送给管理员: 手机/寻呼机: 采取目前最流行的短信消息,及时提供告警状况。 电子邮件: 可以用电子邮件的方式告诉您网络告警、应用程序告警;
 
智能预警“亚健康”的网络状态
NIPMAS不仅可以在网络出现故障时发出告警,还可以防范于未然,在网络出现亚健康状态时即可提醒用户,有效防止网络隐患的发生。亚健康状态指的是网络的物理链路并未出现问题,但是对于用户业务来说,已经出现了诸如不能访问,延迟时间过长等不正常的现象。
NIPMAS能及时发现亚健康状态(可由用户设定),定位网络的瓶颈所在。用户可以为网络制定多种预警值,NIPMAS系统通过对业务的通信情况进行测试和分析,判断网络的健康程度,当网络处于亚健康状态时,NIPMAS系统能够为用户提供预警,最大限度的帮助用户排除隐患,减少损失,节约投资。
用户可以为网络制定多种预警值。NIPMAS系统通过对业务的通信情况进行模拟测试和分析,以此判断网络的健康程度,当网络处于亚健康状态时,NIPMAS系统能够为用户提供预警。管理员和用户可据此做出相应的调整,避免造成不必要的损失。对于网络上的业务,我们通过测定业务的一系列参数来进行对业务的评价。目前的一些预警参数包括: 业务响应时间(ServiceResponseTime):一个业务从发起到结束的时间间隔。 业务通路延迟(ServicePathDelay):指在网络层观察到某种业务的数据包在网络上的延迟。 业务通路延迟抖动(ServicePathDelayJitter):指业务通路延迟的抖动状况。 业务通路丢包率(ServicePathPacketLossRate):指在网络层观察到某种业务的数据包在网络上丢失率 业务通路稳定性(ServicePathStability)
 
网络管理可视化
网络预算的67%一般都花费在日常操作活动上。事实上,这意味着网管员的时间有3/4是放在只对网络进行日常操作上面,根本没有时间进行主动管理。NIPMAS的设计思想就是让不懂网络的人也能轻松管理网络,让懂网络的专业人员,去做更有价值的事情。 采用GIS系统的显示方式:
针对三类用户:大型广域行业网用户,如金融、电信、保险、证券;全国范围内跨地域大型ISP网络;跨国、跨地域的大型企业的一些特点,如网络规模大,地理分布广,网络管理比较复杂,NIPMAS系统借助GIS的显示方式,为用户提供应管理网络的地理分布图。

图表 1通过与GIS的结合,直观显示网络运行状况 清晰的地理位置分布状况,让用户一目了然的监测各地各条链路 分级的结构可以让用户随意察看不同规模的网络的状况 子母图的显示方法更能满足用户兼顾全局与局部的要求 树形察看结构可以帮助用户快速切换至关心的链路上
采用Web发布方式: 用户界面简单:使用浏览器做用户界面非常简单,直截了当。 移植性好:Web 浏览器可运行于几乎所有的硬件平台之上。 远端管理:远端管理很简单,因为WEB浏览器能够在网络的任何地方使用。网管人员可以在网管中心之外的任何地方得到同样的网络信息。 实时性好:因为WEB发布也是实时进行的,因而网管人员可以随时随地的看到第一手信息。 安全性好:通过用户接入权限控制,只允许有权限的用户看到发布的页面资料,很好的解决了安全问题。
图表结合显示的统计图察看方式:
NIPMAS吸收大楼监控的思想,用户可自由选择查看每条链路的运行状况。二维,三维,饼图,柱图等多种可由用户意选择的显示方式,以及可由用户决定的链路显示数目,显示的链路等方面都可想用户提供最关心的直观的资料。

图表 2吸收大楼监控的思想,用户可查看每条链路的运行状况
 
基于业务的网络性能评价
NIPMAS为用户提供了对于网络总体性能的评价(如链路是否运行良好,网络是否正常),用户无需了解具体设备状况(如某些路由器的状况),即可迅速了解全网运行情况。管理人员可以方便明晰的地了解网络运行状况,轻松高效的管理网络,而无需处理大量的细节性参数。 用户一般应用的总体性能评价:通过模拟用户业务的方式来对用户的一般应用进行总体性能评价,如Email, Http, FTP, Telnet等,使网络中使用的性能参数真正和用户关心的业务情况结合起来。 特殊业务的定制功能:根据业务不同和用户需求定制评价内容,满足不同用户的不同需求。这些性能评价的取得是由NIPMAS的专家分析系统完成的,它为用户的决策提供准确的测试报告和建议。专家系统通过对采集的实时数据及历史数据进行智能的分析, 对历史数据的统计分析:利用长期的科研积累,将时间序列模型作为我们处理数据的工具,通过对数据的长期认识,利用各种模型对业务数据中的短相关性和长相关性进行分析,克服了以往传统模型中只能处理短相关性的缺陷: 通过对业务数据的各种不变性找出规律性的东西 采取多种模型进行数据处理与分析
对实时数据的统计分析:除了对历史数据的分析,我们主要对一些实时数据进行适当的预测,作为参考
三、NIPMAS的系统结构说明 工作原理
NIPMAS做为基于用户业务的大型网络性能监测平台,是一套由计算机软、硬件组成的分布式系统,用户在使用NIPMAS系统的网络中,只需要在关键节点放置NIPMAS的测量探针。通过管理中心向各个探针发送指令,探针接到指令后主动对网络进行探测,并将收集到的消息发送给专家分析系统;专家分析系统再对数据进行分析。
保持该系统正常运行的最低配置,至少应由以下三个部分组成: 在管理平台发布命令, 保证测量命令的精确、有效、及时,该平台是直接面向用户中文用户界面,基于windows的软件系统。
从分析平台上传递给测量控制系统的命令,包括posip,traceroute,treno以及用来模拟用户业务的命令,大致可分为两部分 每天例行的测量命令; 专家系统分析故障之后采取的诊断措施。
在控制平台接受命令,采用UNIX操作系统的标准1U服务器 在测量平台(probe)执行命令,采用UNIX操作系统的标准1U机架式服务器
实际应用中,为了保证NIPMAS能够最大程度的发挥它的强大分析能力,用户通常需要配置5-10个探针,网信的NIPMAS专家将会同用户一起,为网络提出建议方案

 
系统特点
由于NIPMAS是基于业务的大型网络的性能监测系统,因此,在平台结构上也有别于传统的网管系统,其主要特点如下: 进程之间相互通信,保障整个系统的协调、一致、减少故障率
在控制平台上,系统接受来自于分析平台上的命令,并通过TCP连接发布给测量平台执行,同时接受测量平台添加命令成功与否,测量结果等的反馈信息然后做出相应处理,并将一切系统信息都写入到系统日志中。 传递和执行的高可靠性,可长期自动运行,无需人工干预
各平台上的模块是按功能相对独立的,譬如控制平台上发送命令和接受结果就是两个独立的进程。通过功能模块的独立化,以及系统自身定时的检测纠错机制,保证了命令的传递和执行的高可靠性。 数据传递的绝对安全性
由于NIPMAS系统主要应用在跨地域的广域网,这样系统内部在测量平台和控制平台就需要通过公用链路来传递数据。与传统的网管软件相比,我们对所有需要在公用链路上传递的数据压缩打包后,都用RSA钥对算法加密,这样即使有人在公用链路上蓄意窃取数据,他所能得到的不过是一堆谁也看不懂的垃圾罢了。关心安全的用户尽可放心了。
四、软硬件说明
从硬件的角度来看,NIPMAS系统包括三个部分:分析平台、管理平台、测量平台。下面分别描述这三个平台的软硬件需求。 分析平台:
分析平台将安装在用户网络中心指定的机器上,运行环境由用户负责提供 硬件部分:
最低配置:PII350,64M内存,10G硬盘
推荐配置:PIII800, 384M内存,30G硬盘 操作系统:Windows NT 4.0/Windows 2000
控制平台/测量平台:
硬件部分:专用1U测量服务器。 操作系统:UNIX
数据库平台: SQL Server 2000
_xyz