吕卓琼 冷秀敏 栾 洋
(鞍山供电公司,辽宁 鞍山 114001)
【摘 要】对华为OSN系列传输设备及网络中常见故障的类型和产生原因进行了详尽地分析和归纳,仅供业界同仁参考。
教育期刊网 http://www.jyqkw.com
关键词 传输设备;告警;损耗
随着电力通信网络规模的不断扩大,电力生产对通信网络的需求与依赖越来越大,对于通信网络的安全要求越来越高。一旦网络出现故障,对电力生产会造成极大的损失。如何做到尽量缩短通信故障的处理时间,成为摆在各级管理者面前的一大难题。本人多年从事传输设备的维护工作,从以往的工作经验中总结出各类通信故障的特点,并提出快速查找和解决通信系统故障的方法和建议,希望与大家进行分享和交流,可能有不妥之处,欢迎批评指证。
作为通信设备维护人员,对故障定位的原则是“先外部,后传输;先单站,后单板;先线路,后支路;先高级,后低级”。那怎样在实践中根据设备网管告警及利用仪表等工具,在短时间内定位并处理故障,是每一位维护人员应该具备的技能。
1 日常维护工作中,通过对网管中的告警巡视,判断并分析故障产生告警的类型和原因
1.1 上下站间均有紧急告警的,常见以下三种情形
1)对于相邻两个设备,在网管上都有R-LOS、R-LOF告警,而没有MS-RDI、MS?REI,说明光缆很可能中断,因为远端劣化指示和远端误码指示无法回传。
2) 如果相邻两网元本端有R-LOS、R-LOF告警,另一端有MS-RDI、MS?REI,说明远端劣化指示和远端误码指示能够回传,可能是光纤单芯或尾纤接头过脏、衰耗异常曾大,或本端收方向光板或对端发方向光板故障。
3) 如果当前网元的上游站点、下游站点两个相邻设备都有相应的R-LOS和R-LOF,并且当前设备无法登陆,一般情况为当前设备掉电,造成两个方向光路不通。
1.2 设备不能登录,ECC不通,还需要确认业务是否正常。单个设备中常见故障及原因
1)如果一个或部分网元无法登录,那么其原因可能是:
(1)光路衰耗大,误码过量,导致ECC通路不通;
(2)主控板故障;
(3)主控板ID拔码不正确;
(4)网元掉电、断纤。
2)如果全部网元不能登录,则原因可能有:
(1)网管网元主控板故障;
(2)网线、网卡故障;
(3)计算机IP地址和网关网元IP地址不正确。
2 按照业务中断及影响范围进行故障定位和分析
2.1 某2 Mbit/s输入中断告警时,原因可能如下
(1)外部设备输入中断;
(2)2 Mbit/s同轴电缆故障;
(3)电缆头焊接脱落;
(4)DDF架头松动;
(4)支路板故障。
2.2 某一个VC4通道告警,原因可能如下
(1)时隙配置参数改变;
(2)设备交叉板故障;
(3)设备背板总线故障。
2.3 光路不通有R-LOS、R-LOF告警,原因可能如下
(1)线路光缆断纤;
(2)光纤传输信号性能劣化;
(3)尾纤接头太脏,衰耗过大;
(4)对端站点光板发送端故障或本端光板接收端故障,导致光功率异常;
(5)使用光板型号或模块类型不匹配。
2.4 误码过量时,设备外部原因可能如下
(1)光纤性能劣化,损耗大;
(2)光纤接头太脏,或连接不正确;
(3)设备接地不良;
(4)设备附近有强烈干扰源;
(5)设备散热不良,工作温度高;
(6)传输距离过短或过长。
3 任何设备都有一定的使用年限,长年运行的设备其内部硬件老化或损坏会产生故障
可能有以下几种情形:
(1)线路板接收侧衰减过大;
(2)对端发送电路故障,或本端接收电路故障;
(3)时钟同步性能不好;
(4)支路板故障;
(5)风扇故障。
4 保护倒换失败及原因
目前,我局通信网络采用的保护方式是二纤单身通道保护环通道保护环。该保护环有网络具备自愈功能,当网络发生故障时,不需要人为的干预,网络本身能在极短的时间内自动恢复传送业务。但实际运行中可能会发生以下情形,导致保护倒换失败:
(1)逻辑系统属性(保护关系)配置错误;
(2)支路板通道保护属性配置错误;
(3)支路板、线路板和主控板故障。
5 维护中常见的人为故障有
1)更换光板时型号不统一,造成光功率过载或太低,导致光路不通,产生R-LOS或误码过量等故障;
2)在多个2 Mbit/s口同时处理和开通时,不同的2 Mbit/s线收发交叉互配,造成数据业务不通;
3)更换主控板时,忘记拔动或错误拔动ID码,导致网元无法登录;
4)风扇长期不清,导致设备产生大量指针调整和误码;
5)网管添加业务时不规范,发生时隙冲突,导致业务中断;
6)PGND接地不良,造成单板频繁损坏和误码;
7)光缆错误连接导致全网业务中断;
8)市电接入电源设备时,火线零线反接,导致主控板反复复位;
9)尾纤保护不到位,导致老鼠咬断尾纤,光路中断。
6 利用SDH分析仪定位故障
误码测试是对整个传输链路运行工作情况的反馈方法,光口和电口的误码测试方法一样,不同的只是信号结构不一样。通过仪表测试能把故障的范围缩小,减少故障处理的时间,最终定位到故障设备单板。
光口和电口的误码测试(以2.5G光口误码测试为例)进行测试的仪表定位故障的步聚:
1)连接好设备,设备对应光口无告警,SDH分析仪无异常告警指示灯亮。最好在连接设备前,对SDH分析仪进行端口自环,验证仪表自身设置正确。
2)编辑信号结构为STM-16光发光收在VC4级别停止解复用,即选中BULK,选用223-1的伪随机序列(PRBS)信号,确认无误后选中TX=RX,点中OK,仪表即修改为你选中的设置。此时如连接无误,仪表应无告警。
3)进入误码测试界面,进行测试。通过不同的选项设置,测试结果值有不同的显示方式,可显示图形、数字等。通过设置,使SDH测试仪只检测自己需要测试的误码类型,一般设置为全‘ALL’状。
4)如果用来定位2M业务故障的话SDH分析仪要配置为2M信号结构。并用仪表的2M接口连接设备DDF架端子,观察仪表告警指示灯是否正常。正常后进行下面的步骤:
(1)连接好线缆后,把本站2M业务对应的光板进行环回,查看仪表2M业务是否正常,如果仪表测试结果显示无误码或业务正常。说明本站设备没有问题。
(2)对端站光板向仪表侧环回,查看仪表2M业务是否正常,如果仪表测试结果显示无误码或业务正常。说明对端站设备没有问题。需要确认接入的业务信号是否正确。
7 通过不断学习,提高故障处理能力
通信网络技术更新很快,这要求网络维护人员做到与时俱进,所以平时要养成好的习惯,笔者认为要做到以下几个方面:
(1)加强对网络通信技术学习,尤其要关注新技术;
(2)网络障碍处理时,必须对当前网络情况充分了解,尤其是网络情况较为复杂时;
(3)对网络故障相关信息做详细记录;便于故障处理;
(4)处理好障碍后,尤其是疑难障碍,及时总结,积累经验;
(5)做好网络日常维护工作,避免不必要的网络故障发生;
(6)最后别忘了向设备厂商求助,同时也能积累自己处理故障的经验。
[责任编辑:邓丽丽]