网络信息内容安全技术浅析

　　摘要：党的十九大报告提出“加强互联网内容建设，建立网络综合治理体系，营造清朗的网络空间。”，这是对新时期网络信息内容安全及管理的新要求。该文通过对网络信息内容安全技术的分析和对网络信息传播的基本特征的提取，提出了一个针对网络信息传播的控制模型，以便及时发现并阻止网络上的各种非法和不良信息传播，保障网络信息内容安全。

　　关键词：信息内容安全；信息过滤；网络舆情监测

　　当前网络已经成为传播力强大、影响十分广泛的大众传媒，各种信息通过文字、图片、音频、视频等在网络上传播，极大地满足了公众的信息需求。但是网络信息传播中也出现了一些错综复杂的现象，虚假信息、垃圾信息、淫秽色情等非法有害信息不时出现，这给国家和社会带来了不可低估的破坏作用和负面影响。如何应对网络信息传播中出现的各种问题，保障网络信息内容安全，成为政府和业界急需研究的内容。2012年12月底全国人大常委会通过的《关于加强网络信息保护的决定》中第五条，规定了对用户发布和传播的非法和不良信息进行监管。党的十九大报告提出“加强互联网内容建设，建立网络综合治理体系，营造清朗的网络空间。”又把网络内容安全放在重要位置，以此为出发点，本文探讨如何及时发现并阻止网络上的各种不良和非法信息传播，保障网络信息内容安全。

　　1网络信息内容安全面临的威胁

　　随着互联网的快速发展，人们现在无论是在生活还是工作中，都离不开它。特别是在Web2.0时代，用户原创内容UGC大量出现，随之一些垃圾信息、广告、色情图片等内容也悄然破坏着互联网的纯净度。

　　网络信息内容安全，是研究如何在迅速变化且包含海量信息的互联网中，通过计算机对与特定主题相关的数据和信息进行自动采集、分析鉴别和响应控制的技术。它较传统网络安全级别更高，是对网络信息传播进行管控的重要手段，对加强互联网内容建设、营造清朗的网络空间、保障社会的和谐稳定具有重要意义。在互联网传播的信息内容中，面临的不良和非法信息威胁主要有如下三类。垃圾信息，主要是指隐藏在文本、评论、弹幕、邮件等中的各种无用、不需要信息，包括垃圾文本，垃圾广告、垃圾邮件等；色情信息，主要是指有性诱惑、性暗示的和涉黄露点的文字、图片和视频等信息；涉政信息，指危害国家安全，影响社会稳定，反党反政府的谣言、虚假信息和暴力恐怖信息等。

　　2网络信息内容安全技术

　　网络信息内容安全面临的问题主要表现在不良信息泡括虚假信息、垃圾信息、不道德信息）和非法信息通过各种开放的网络所提供的自由流动的环境肆意扩散。这些不良和非法信息不仅对公共利益和国家安全构成威胁，而且其肆意传播会威胁到公民个人的财产和生命安全。网络信息内容安全保障的重点是加强信息在传播过程中的控制和管理，现在采用的主要方法有网络舆情监测和信息过滤。

　　2.1信息过滤

　　信息过滤一般是指满足用户信息需求的信息选择过程。对网络信息内容安全来说，信息过滤是指从海量动态的网络信息中，将剔除不良信息和非法信息后的内容展现给用户的过程，有效过滤网络上发布和传播的各种海量动态信息内容是其实现的重点和难点。

　　网络信息内容安全过滤同一般的信息过滤相比，有如下特点：一是要过滤的内容实时、动态、多样且具有一定的隐蔽性；二是过滤的对象主要是文本、图片和音视频三种内容，比较明确；三是过滤的目标清晰主要实现广告过滤、智能鉴黄、涉政检测和暴恐识别这四个目标；四是过滤的内容所处场景多样，有评论、签名、头像、聊天室、弹幕、直播、视频等多种应用场景。

　　当前实现互联网信息过滤的方法主要有以下三种。一是IP地址或网址过滤，是指建立含有非法或不良信息的网站所对应的IP地址或网址数据库，当这些IP地址或网址被用户访问时予以阻断。二是通过匹配关键词和特征库来实现过滤，是指在包含URl、检索词、文本、文档等信息内容的网页或网站中，识别匹配指定的關键词和特征，以检测传输的信息中是否含有不良或非法信息。三是基于互联网信息内容的过滤，即对实时传输的海量互联网信息，通过采用基于自然语言、深度学习等技术的智能识别技术来实现过滤。

　　前两种方法在实际应用中容易实现，应用范围较广，过滤的速度也较快。但是对IP地址或网址过滤来说，如果非法或不良信息的网站所对应的IP地址或网址更新速度较慢的话，过滤效果将大打折扣，而且存在着用户通过镜像、代理、“翻墙”等手段实现对被封锁网站内容的访问。匹配关键词和特征库的过滤主要缺陷是准确率较低，误报和漏报率较高，以致被滤掉的信息范围扩大。基于互联网信息内容的过滤虽然过滤的效率较低、速度较慢、实现难度较大，但是其过滤准确度高，适用范围广，可以有效地避免前两种方法的缺陷，已经成为过滤研究的重点，也是未来过滤方法发展的方向和趋势。

　　2.2网络舆情监测

　　网络舆情监测就是指通过信息采集、搜索引擎、数据挖掘等技术，对动态、交互、海量的互联网信息进行采集、敏感词过滤、主题检测、专题聚焦、统计分析等处理，从而发现网络敏感事件并及时预警。

　　网络舆情监测技术既与信息的组织和分析相关，又与自然语言处理技术密不可分。目前实现网络舆情监测的技术主要有通过网络数据挖掘的主题监测和基于统计规则的模式识别两种。基于统计规则的模式识别技术在舆情监测应用中，因为不同的信息源产生信息的规律差异较大，使其只能在较小的范围内进行定点监测，故有较大的局限性。现在应用较多的网络舆情监测技术主要是通过网络数据挖掘的主题监测来实现。这种方法通过网络爬虫和网页清洗等技术从WEB中提取与目标相关的舆情信息，并利用自然语言处理、数据挖掘等技术对其进行舆情分类、主题检测、网络舆情意见挖掘和观点分析以及网络舆情危机预警。

　　3关键技术研究

　　无论是基于内容的过滤，还是网络舆情监测其涉及的关键技术主要有信息采集、信息内容的分析鉴别和响应控制技术三类，如图1所示。

　　3.1信息采集

　　信息内容的采集是网络信息传播管控的首要任务。但是一些非法、不良信息的传播者为了逃避管控，经常会使用隐藏、加密、信息变换等技术传播信息，以至对其难以有效地管控。

　　通信对象、通信方式和通信内容是构成信息传播的三个基本要素，针对以上情况下可对信息采集对象进行扩展，在采集信息时对通信对象即“谁和谁在通信”，“以那种方式通信”这些信息也进行采集。如使用通信对象这个要素进行信息传播管控，需要采集非法、不良信息内容传播者的身份，如IP地址等信息。但在实际信息传播过程中，非法、不良信息传播者可能会盗用IP地址或采用IP地址欺骗等技术隐藏身份信息，这时可以通过非法、不良信息传播者与访问者之间的通信行为加以管控，也就是通过“以那种方式通信”这个要素来控制。

　　为了提高信息采集效率，及时获取實时的网络信息内容，同时降低后期处理技术部署成本，可以采用网络端口镜像技术和网络爬虫技术相结合的方式进行信息内容的获取。

　　3.2信息内容的分析鉴别

　　信息内容的分析鉴别是指在内容理解的基础上，通过对网络上传输的海量、动态信息进行提取、分析后，及时地将非法和不良信息通过响应控制技术处理，从而达到对信息传播进行管控的目的。由于它涉及数据库、数理统计分析、知识论、模识识别、自然语言处理、计算机视觉、图像处理及理解、人工智能等多个学科和领域，因此技术复杂，实现难度较大。

　　信息内容的分析鉴别主要是通过格式、内容、段落、主题、图片、音，视频等信息所呈现出的特征来进行分析、判断的一种鉴别方法，根据鉴别的信息对象不同可分为文本内容分析鉴别、图像内容分析鉴别、音频内容分析鉴别、视频内容分析鉴别和混合信息内容鉴别。要实现信息内容的分析鉴别，主要通过以下两个方面的工作来完成。一是信息内容的预处理工作，即通过从信息源中提取能判别或反映信息性质的隐性和显性特征，实现对传播信息内容数据的预处理，使被监测的信息内容通过特征项被有效地标识出来。二是信息内容的匹配，即根据一定的匹配方法和规则将被监测的信息内容与不良和非法信息模板匹配，通过匹配的结果对被监测信息内容进行相应处理，并将处理的结果返回给用户。常用的匹配方法有统计模式识别、关键词匹配、正则表达式匹配及数据的挖掘分析等。

　　3.3响应控制

　　响应包括被动响应和主动响应。被动响应是指对鉴别的结果和访问请求路径等进行记录，并由监控者决定是否采取措施进行下一步处理。主动响应是指采用过滤、裁剪、替换、阻断等方式对互联网信息进行管控，通过对鉴别后的信息源或信道采取具体的相应措施而体现出主动响应的处理结果。

　　传统的互联网应用大部分是基于B/S架构的，信息主要来源于网站，所以如发现网站中有非法、不良信息，一般来说常将网站的域名、IP地址等信息添加到黑名单中并加以访问阻断。如MAC地址过滤、DNS过滤、防火墙ACL和路由黑洞等传统网络阻断与控制技术都是基于这一思想。随着WEB2.0应用的普及和移动互联网的快速发展，用户之间的信息传递更加密切频繁，用户成为主要的信息来源。若使用传统技术方法可能会导致用户不能接入到移动互联网中，因此针对移动互联网应用以HTTP应用为主，大多数应用是基于TCP协议这一应用类型高度集中的特点，根据IP伪装原理，可以采用面向应用错误代码和TCP链接的实时阻断控制技术。

　　响应控制部分与信息采集部分在实际部署中的处理能力必须匹配，响应控制的效果由信息采集部分的速度和精度所决定。为了对网络的运行不产生影响，信息采集部分可以采用旁路方式部署。响应控制部分与网络串联部署时会对网络流量产生影响，因此，当网络流量有较大增长时，响应控制部分与信息采集部分须同步升级。

　　4结语

　　互联网信息流的复杂性决定了没有任何一种技术可以完美解决互联网信息传播管控中的所有问题，所以在实际部署应用中我们必须综合各种技术，优势互补，为基于互联网的网络社会打造一个全方位、立体化的综合管控技术体系，从而“加强网络社会管理，推进网络依法规范有序运行。”保障其信息传播安全。

　　作者：王宏宇