何 敏
(天地〈常州〉自动化股份有限公司,江苏 常州 213015)
【摘 要】本文针对现有煤炭企业安全信息管理系统设计理念落后的现状,引入知识管理的理论和方法,提出了更为先进的煤矿安全信息管理系统整体架构,开发了一套煤矿安全信息管理系统。该系统不仅建立了煤炭安全领域的知识地图,还包括了有价值信息的采集,自动归类,信息的检索和相关度关联,是知识经济中管理煤炭企业所需的内部知识和外部知识的平台。
教育期刊网 http://www.jyqkw.com
关键词 知识管理;知识地图;Tag云图
0 引言
目前绝大部分煤矿企业所使用安全信息管理系统仍然是传统的模块化的系统,只是一个对煤矿安全信息的构架简单而操作复杂的管理平台。在这些系统下,煤矿安全知识普遍流转不畅、共享困难;煤矿安全人员的知识更新效率、知识创新能力难以得到根本性的提高。
1 知识管理体系在信息管理系统上的应用
知识管理体系在信息管理系统上的应用有两个分支,它们是:Tag和Ontology。
1.1 Tag
Tag是一种新的组织和管理在线信息的方式。它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。Tag是一种更为灵活、有趣的分类方式,可以为每篇文章、每个文档或者每张图片等添加一个或多个Tag,可以看到网站上所有使用相同Tag的内容,由此不同的文档之间产生更多的联系。
1.2 Ontology
Ontology[1]即“知识本体”。Ontology在信息系统中的应用,主要是知识检索。知识检索强调的是基于知识的、语义上的匹配,因此在查准率(全文检索)和查全率(数据检索)上有更好的保证。
本文所研究的煤矿安全信息管理系统是通过介于Tag和Ontology之间的技术手段实现信息的组织和管理。
本系统不同于Tag,在于:它不是人为为每一篇文章手动添加Tag(主题词),而是系统自动抽取文章的主题词,自动聚类,而且它采用的是受限的主题词,受限的主题词好处在于主题词的筛选,可以把与煤矿安全领域无关的教育期刊网 http://www.jyqkw.com
关键词 全部排除,只针对煤矿安全领域所设计。
本系统不同于Ontology,在于:Ontology的理论非常广,包括的内容和研究方向多而且复杂。本系统只抽取其部分精华,例如:应用知识本体的概念构建煤矿安全领域的知识地图;知识检索——针对煤矿安全领域的垂直搜索等。
2 系统软件架构
本系统充分利用软件技术发展的最新成果,以多层Web体系结构作为软件架构的基础。系统分为5个层次[2],系统的软件架构如图1所示,系统各层的概述如下:
(1)访问工具层。访问工具层是系统的用户接触层,可以通过Web浏览器和一些常用的办公软件访问,也可支持实时通信工具(RTX等),从而实现知识的实时在线交流。
(2)KM表现层。企业知识管理的交互活动在企业知识门户中进行,知识体系和知识关联通过知识地图来体现。
(3)KM应用层。包括知识资源管理、知识协作管理、企业文化管理、决策支持和外部知识管理等[3]。
(4)KM核心服务层。本层是从软件工程技术的角度出发,将知识共享循环的动态过程以统一的系统接口提供服务,这些接口包括各种用于沟通的通信服务、组织的管理以及文档和流程的管理。
(5)KM平台。主要构成为服务器硬件与知识管理的网络环境、数据库以及应用服务器。
3 系统主要功能实现
3.1 知识地图
知识地图的本质是通过先进的信息技术搜集的企业知识资源总目录及各知识条目相互关系的综合体。主要包括:①通过调查获取的企业知识资源总目录;②目录内各条目之间的相互关系。
本系统中知识地图主题词表是针对我国煤炭行业安全领域所建立。它主要由索引和主表两部分构成。索引是使用本主题词表的辅助查词工具;主表是由主题词款目及非主题词款目组成,款目序列按汉语拼音字顺规定的同音同调同形排列,是主体标引和检索查询的主要工具。
3.2 主题词和教育期刊网 http://www.jyqkw.com
关键词 自动标引
本系统基于TF-IDF技术进行词条的权重值计算,从而完成主题词和教育期刊网 http://www.jyqkw.com
关键词 的自动标引。(TF词频(Term Frequency),IDF逆向文档频率(Inverse Document Frequency))。TF-IDF的理论基础是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,可以产生出高权重的TF-IDF,则认为此词或者短语具有很好的类别区分能力,适合用来分类。计算公式采用归一化的TF-IDF公式:
其中,W(t,d)为词t在文本d中的权重,而TF(t,d)为词t在文本d中的词频,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。
3.3 文档自动分类
本系统采用的文档自动分类的实现方法是余弦正规化法。
(1)模型定义。在向量空间模型[4]中,定义N表示整个文档中词条的总数,文本表示为由各个词条的权重构成的N维向量:
dj=(w1,j,w2,j,…,wN,j)
Wi,j表示词条i在文档dj中的权重,如果Wi,j=0,则说明词条i在文档dj中未出现。
(2)权重值确定。应用TD-IDF理论,对文档中每一维都统计出了其词频(TF)和逆向文档频率(IDF),分别表示为:
其中,Wi,j为词条i在文档dj中的权重;TFi,j为词条i在文档dj中的词频;IDFi为词条i的逆向文档频率;n表示文档的总数;ni表示包含词条i的文档总数。
(3)余弦正规化向量表示。余弦正规化法[5]是通过整个文档向量的长度来实现。当一个文档向量构成完成后,该向量的每一维都设定了对应词条的TF×IDF值,将这个向量的所有维上的这个值都除以该文档向量的欧氏长度,即得到经过正规化的文档向量。
其中,dj为文档j构成的N维向量;LC(dj)为文档j经过余弦正规化后的向量长度;αj为文档j向量与对应坐标轴上投影的夹角;N表示文档j的维数;Wi,j为词条i在文档dj中的权重。
文档的聚类的过程为:首先,对分类树内的每一个文档采用余弦正规化法进行向量表示,在同一分类的文档中取该分类下所有文档的向量表示的平均值作为该分类的向量长度,从而得出其平均余弦夹角αm,对需要聚类的新文档计算得出的余弦夹角αk进行比较,取两者夹角最小的分类做个新文档的分类。
3.4 Tag云图检索
Tag云图检索方式,采用F.Karinthy提出的六度空间理论。他认为,最多通过六位联系人,就能将世界上的任何两人联系起来[6]。在信息时代,人与人的关系已经深度社会化,任何两位素昧平生的人都能够经由“六度空间”产生必然联系或关联[7]。将“六度空间理论”应用到信息检索系统中,这就意味着用户要找到一篇文档,平均最多在Tag云图中选取6个教育期刊网 http://www.jyqkw.com
关键词 就可以检索到所需要的文档。
4 结论
运用知识管理的理论和方法,以互联网技术和信息技术作为基础,开发出五层Web体系结构信息管理系统,并完成相关功能模块设计。主要的作用和意义体现在以下几个方面:
(1)为煤矿安全人员提供知识共享的平台;
(2)提供适当的工具和环境辅助安全人员方便快捷地找到所需要的有价值的信息,从所处网络环境接受知识;
(3)增加煤炭企业的知识储备,将个人知识转变为组织知识,减少因企业人员流动而造成的损失;
(4)知识地图能有效组织企业内部的知识和专长信息,员工在需要时可以非常方便地查找到专家,进行直接交流,从组织网络获取知识,高效优质地完成任务。
教育期刊网 http://www.jyqkw.com
参考文献
[1]岳巧云.叙词表与Ontology的比较研究[J].科技情报开发与经济,2009(8):86-87. YUE Qiao-yun.The Comparative Study on the Thesaurus and Ontology[J].sci-TECH Information Development & Economy,2009(8):86-87.
[2]叶茂林.知识管理及信息化系统[M].经济管理出版社,2006.
[3]李怡.基于成本-质量控制的工业设计知识管理研究[D].中南大学,2011.
[4]周炎涛,唐剑波,吴正国.基于向量空间模型的多主题Web文本分类方法[J].计算机应用研究,2008.25(1):142-145. ZHOU Yan-tao,TANG Jian-bo,WU Zheng-guo.Method of Multi-topic Web Text Classification Based on VSM[J].Application Research of Computers, 2008.25(1):142-145.
[5]王晓龙,关毅.计算机自然语言处理[M].清华大学出版社,2005.
[6]Braun T. Hungarian priority in network theory[J]. Science,2009(5):45-47.
[7]Travers J, Milgram S. An experimental study of the small word problem[J]. Sociometry, 1969:34-37.
[责任编辑:汤静]