吕 世 国
(湖北财税职业学院 湖北 武汉 430064)
摘 要:针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。
教育期刊网 http://www.jyqkw.com
关键词 :主题图;中文分类;盘古分词;Ontopia
中图分类号:TP274.3 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.06.039
主题图被誉为信息时代的GPS,它是多种技术进行融合而出现的一种新兴技术,其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术,引起了国内外学者越来越多的关注和思考。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过TAO,即主题(Topics)、资源出处(Occurrences)和关联(Associations)描述出来,它们就如同三维空间中的“点、线、面”,将一定领域的知识结构和他们之间的语义关联具体化。而在实际应用中,一般使用和存储XML 语法形式的XTM(XML Topic Maps)描述。
目前常用的主题图引擎有TM4J、tinyTIM、XTM4XMLDB和OKS等,然而仅有挪威Ontopia公司的OKS(Ontopia Knowledge Suite)获得了成功。Ontopia知识开发组件(Ontopia Knowledge Sui te,OKS)是由Ontopia公司开发的一个由本体驱动,基于Web的Topic Maps构建和管理工具,主要用于创建、维护、配置主题图应用程序,是目前较完整的商业开发工具。
在OKS(Ontopia Knowledge Suite)组件中,提供了基于主题图的自动分类功能,但是仅局限于英语和挪威语,缺乏对中文的支持。图书馆作为文献信息的服务机构,藏有大量历史文献,是众多历史研究者及历史爱好者查找资料、研究学习的场所。面对如此巨大的文献馆藏,若完全由人工来进行分类是不现实的。于是,在Ontopia的基础上实现了基于主题图的中文自动分类系统的原型系统。
1 系统功能模块设计
为实现基于主题图的中文自动分类,基于主题图的中文自动分类系统的目标如下:提供文档内容提交接口;提供文档上传接口;支持中文、英文、以及中英文混合文档;支持多种文档格式;自动提供分类推荐。
2 系统设计思路(见图1)
图1为系统功能模块,系统包括:分别是获取文本、中文分词、词频记录、词频统计、分类推荐。具体是:获取文本模块—其主要功能是通过提供用户接口,由用户提交文档内容或文档,获取文本;中文分词模块—其主要功能是分析文本,采用中文分词工具实现中文分词;词频记录模块—其主要功能是对分词结果进行词频计算;词频统计模块—其主要功能是根据词频记录进行统计排序;分类推荐模块—其主要功能是在词频统计的基础上返回分类推荐结果。
3 系统实现
3.1 获取文本
获取文本模块,其主要功能是与用户交互,从而获取需要分类的文本。
系统提供了两种用户交互的人机界面:一种是直接提交文档内容,一种是直接上传文档。
(1)第一种界面(直接提交文档内容)提供了用户输入文档内容的文本框。通过这个文本框,用户输入文本内容,提交到系统中。采用这种方式,用户的操作比较复杂,需要打开文档,然后再复制文档内容,再粘贴到文本输入框提交文档。虽然使用这种方式比较繁杂,但是在处理一些极少使用到的文档格式的文档时很方便。
(2)第二种界面(直接上传文档)提供用户选择文档的界面,用户可以选择多种文档格式文档,上传文档由系统处理。系统根据不同的文档格式,调用不同的解析工具来解析文档,提取文档文本。
POI解析器用于提取以".doc", ".docx",".dot",".ppt",".pptx",".pot"和".pps"为文档后缀的文档;Pdfbox解析器用于提取以".pdf"为文档后缀的文档;Sax解析器用于提取以“.htm”,“.html”,“.xhtml”,“.shtml”和“.xml”为文档后缀的文档。
3.2 中文分词
中文分词模块对获取的文本进行文本分析,进行中文文本分词。
汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础和关键。为了提高中文分词的精确度,在文本分词时,采用该主题图的专业词库。这样在文本中出现一些特别专业的词语时,系统能够识别,而不至于被系统忽略掉。此外,还需要对词语进行词性标注,在经过词性标注后,可以过滤掉一些对分类无效的词语,比如虚词、代词、连词、副词、形容词等。
本系统在中文分词模块中,采用的中文分词组件是盘古分词。盘古分词是一个开源的中文分词组件,有中文分词功能、英文分词功能、中文词性输出、停用词过滤功能、用户自定义规则、字典管理功能、教育期刊网 http://www.jyqkw.com
关键词 高亮等功能,在Core Duo 1.8 GHz 下单线程,分词速度为 390K 字符每秒,2线程分词速度为 690K 字符每秒。盘古分词,不仅解决了中文分词,还对停用词进行了过滤和对中文词性进行标注,为词频记录模块提供良好的支持。
3.3 词频记录
词频记录模块对盘古分词的结果进行词频分析,根据词性记录每个分词的词频。
首先,读取盘古分词的结果,根据词性排除掉一些对分类起干扰作用的词语,虚词、代词、连词、副词、形容词等;把排除后的词语采用基于KEY-VALUE的数据结构,即键值对的方式,对词频进行记录。KEY保存的是词语,VALUE保存出现的次数和出现的百分比,当KEY存在,VALUE递增,当KEY不存在,新添加一个键值对第二,获取出现词语的总次数。
3.4 词频统计
词频统计模块的主要功能是对词频记录进行统计,生成词频表并对词频进行排序。
通过词频记录模块中,遍历返回的词频记录,计算出每个词语在所有词语中,所占有的百分比。根据词语所占有的词频的百分比,对词频记录进行从高到低的排序,从而获取每个词语在文档中所占有的位置重要程度。
3.5 分类推荐
分类推荐模块,其主要功能是根据词频统计的词频排序,以及主题图的状况,给用户提供分类推荐。
在词频排序时,该词语在文档中占据的重要程度已经非常明显,根据词频从高到低地排序,即可很大程度上展现了该文档所属的分类。
此外,由于主题图中的分类是有限的,并不完全肯定文档比较合适的分类一定存在主题图中,以及文档中存在的某些词语,在主题图中可能已经被定义为了等同关系,所以,还需要对主题图中的主题进行比对,将同义的词语进行合并。将合并后的词频排序结果,给用户推荐作为该文档的分类之一,当对于词频出现比较高,而文档中又不存在的主题,系统将给于文档提示,是否需要在该主题图中,添加该主题。
4 应用效果
选择一篇文档对该系统进行文档自动分类应用。
首先进入文档自动分类界面:
点击浏览按钮后完成文档的选择,系统进入文档上传界面:
提交文档后,系统给出的文档自动分类结果:
点击分页导航,系统自动将结果集翻页:
5 结语
该系统在Ontopia实现对英文和挪威文自动分类的基础上,根据中文的特殊性,实现了基于中文的自动分类系统原型,一定程度上在文档分类上实现了自动化,减轻了用户的负担。当然,该系统也存在二种不足。一是在文档提交上,缺乏批量提交的接口,二是在中文分词上,采用的是基于词典的分词,和采用文本匹配的方式,并没有达到基于语义匹配的方式,因此在分类的精确度上还有欠缺。
教育期刊网 http://www.jyqkw.com
参考文献
1 秦铁辉,郭延吉,孙琳.信息时代的全球定位系统——主题地图[J]. 江西图书馆学刊,2005(1)
2 韩永青,陈卓群,夏立新.国内外主题图应用研究述评[J].图书情报知识, 2008(11)
3 张玉涛,夏立新.基于主题图的电子政务信息资源整合模型研究.情报杂志,2009(7)
3 朱良兵.开源主题图引擎TM4J 应用研究[J].现代图书情报技术,2006(10)
4 李清茂.开源主题图Ontopia 引擎工作机制研究[J].西昌学院学报,2010(6)
5 李彬.基于Topic Maps 技术的历史文献分类组织[J].图书情报知识,2011(1)
6 夏立新,王忠义.基于XML的全文检索原型系统的设计与实现[J].现代图书情报技术,2007(8) (责任编辑 高 平)