黄正伟① HUANG Zheng-wei;沈丹① SHEN Dan;蔡政英② CAI Zheng-ying
(①三峡大学经济与管理学院,宜昌 443002;②三峡大学计算机与信息学院,宜昌 443002)
摘要:非正式短文本包含着许多复杂的语义信息,这给文本情感分析研究工作增加了难度,例如不能明确文本所表达的主题、目的和特点。本文提出基于特征向量模型和依存法对非正式短文本作情感分析研究,利用依存句法提取文本的情感元组并计算其情感值,它可以判别文本的情感属性是积极地还是消极地,或者是中立的,并能够通过程度副词判断情感强度。
教育期刊网 http://www.jyqkw.com
关键词 : 情感分析;特征向量模型;非正式短文本
中图分类号:TP391.1 文献标识码:A 文章编号:1006-4311(2015)23-0256-02
基金项目:国家自然科学基金(71471102)。
作者简介:黄正伟(1972-),男,湖北大冶人,三峡大学经济与管理学院副教授,博士,主要研究方向为电子商务、信息系统;沈丹(1990-),女,湖北咸丰人,三峡大学经济与管理学院硕士研究生,主要研究方向为物流管理;蔡政英(1975-),男,江西会昌人,三峡大学计算机与信息学院副教授,博士,主要研究方向为人工智能算法。
0 引言
文本情感分析就是将文本所表达的情感信息量化,研究一段文本所表达的积极的、消极的或者中立的极性,来分析文本的情感倾向性。
近十年来,出现了大量关于文本情感分析的研究。目前对文本情感倾向性的研究大致可以分为两类:一是基于有监督(supervised)的情感分析研究。Kiritchenko提出了一个基于有监督的统计文本分类法来分析文本表现形式、语义和情感特征,并建立了一个情感分析系统。Liu通过基于情感强度的有监督情感分类的特征加权算法对产品评论进行情感分析。Deng提出基于术语在文本中的重要性和术语对所表达的情感的重要性的有监督的术语加权方法来改善情感分析和文本挖掘的性能。Felipe提出了利用基于元级特征(meta-level features)的文本情感分类方法。Anjaria提出一个有监督基于支持向量机朴素贝叶斯最大熵和人工神经网络的、利用直接和间接特征来提取文本观点。二是基于无监督(unsupervised)的情感极性分析研究。Terrana提出了一个利用推特中的情感符来自动分类文本情感极性的无监督的方法,Malandrakis研究了无监督的语义情感模型(semantic-affective models)的自适应算法,Ou通过将微博间的链接分类,提出一个无监督的内容和链接情感模型(CLUSM :Content and Link Unsupervised Sentiment Model)来作微博链接信息的情感分析。Li提出了无监督情感导向特征选择法(USFS :unsupervised sentiment-bearing feature selection method )来识别主观文档的不同情感倾向类别。Fu提出了一个无监督的多方面情感分析方法,它可以自动发现中国社会评论的不同方面以及各方面表达的情感。另外,也有一些研究是基于半监督的(semi-supervised),例如Hassan提出把马尔科夫随机漫步模型运用到大量词关系图中来文本的情感极性,Kim提出通过半监督的非线性降维分类方法,可以通过递减的发觉的错误除去多余的特征。
社交网络迅速发展,微博等非正式短文本充斥网络,本文在分析非正式短文本特征的基础上,提出利用依存句法来分析文本的情感极性。
1 建立模型
基于特征的六元组模型:
元组表示数据库中的一条记录,本文基于文本的语义特征建立六元组模型,该模型中不仅包含描述作者意见的特征,还包括词语间的修饰关系和标点符号。
符号说明:
T表示一个一般文本;
wn代表作者意见的权重;
vi代表作者意见的特征向量;
f表示作者意见的属性;
o是特征f的观点词;
m是观点词o的修饰语的数量;
s是观点词o的修饰语的平均分数;
n是观点词o的否定词的数量;
p是语句的标点符号。
在本文的六元组特征模型中,定义一般文本
T={(v1,w1),(v2,w2),…,(vn,wn)}(1)
vi=(f,o,m,s,n,p)(2)
其中,修饰语o是表示程度的副词,如“非常”、“很”等,修饰语会影响文本所表达的情感,一个文本中往往具有多个程度副词修饰文本语义,在本文的算法中提取的是观点词附近的修饰语。通常来讲,一个观点词的修饰语和否定词的数量都不会超过2个,所以本文赋值(0,1,2)给m和n。修饰语的平均分数是指一般程度副词对每个观点词的平均分数。p是语句的标点符号,它能够反应作者的语气,通常具有陈述、感叹、问句三种状态,本文把p作为一个单独的元组来考虑;陈述的情感比较弱,对于文本的情感极性影响较小,感叹和疑问的情感表达比较强烈,对文本情感极性影响较大,因此,当标点为句号时,p=0,当标点为叹号或者问号时,p=1。
上述模型对进行文本分类的必要信息作了简要分析,其中观点词的修饰语的数量、观点词的否定词的数量和修饰语对观点词的平均分数作为变量,会影响文本的情感倾向。修饰语即程度副词表示情感极性的强度,否定词则可以改变观点词的极性。本文采用知网(HowNet)产生的情感词典,知网把程度副词分为“欠”、“稍”、“较”、“很”、“极其/最”、“超”等六个层次,1-5层的情感强度逐级增强,第六层表示情感极性的改变,所以分别赋值(1,2,3,4,5,-1)给1-6层。另外,修饰语的数量也会影响语义倾向,因此,定义为与观点词相关的修饰语的数量。一般程度副词的平均分数s表明程度副词对观点词的影响程度,s的值表示情感极性的强度。否定词的数量n可以表明语义方向是否被反转。
2 算法介绍
2.1 情感元组的提取
法国语言学家特斯尼耶尔(Lucien Tesniere)创立了依存句法,他认为:句子是一个由词构成的组织整体,临近的词之间会产生联系,从而构成句子的框架,并表达思想。依存句法中,依存结构的主要元素是依存对(dependency pairs),其中一个是核心词,一个从属词。每个句子可以为一个关系树,通过关系弧链接核心词和从属词。依存句法通过分析语言单元部件间的语义依存关系来揭示语法结构,如图1,一个句子往往有多种拆分,存在多个情感元组。
本文利用依存句法来提取文本的情感词,首先是提取文本中的实词(不含数词和量词)作为依存句法中的核心词,例如图1中的“学校”;接下来就是提取实词的修饰词的数量m,包括语法树中直接与实词联系的修饰词以及与其连接的所有子树中的修饰词;最后是从文本的依存关系中提取程度副词对观点词的平均分数s(即观点词对程度副词的依赖程度)和否定词的数量n。否定词可以修饰观点词,也可以修饰程度副词。m、n的值初始为零,副词和否定词是与观点词联系在一起的。每增加一个修饰词,m的数值增加1。同样,n随着否定词的数量增加而增加。本文计算每个与观点词相关的程度副词的平均分数作为s的值。最后,依据p来确定文本的语气。
2.2 文本情感倾向的判别
提取情感元祖之后,接下来便是建立文本情感判别模型。用Vc表示核心词的情感值,初始值为1;VM表示修饰词的情感值,初始值为0;VT表示情感元组的情感值。在情感值计算中,对知网情感词典的情感词赋值,正的情感词的情感值为1,负的情感词的情感值为-1。然后计算核心词和修饰词的否定程度Dword,初始值为1;核心词和修饰词都有可能否定词修饰,所以Dword=(-1)nDword;当否定词有修饰词时,Dword=Dword*s,s为程度副词的分数(上文中的六个层次的程度副词的值)。没有修饰词的时候文本的情感极性由核心词的极性决定。因此,依存元组的情感值为:
(3)
i是修饰词的个数。由于一个文本往往存在多个情感元组,因此,整个文本的情感值V为:
(4)
其中n为文本中情感元组的个数。根据此模型可以计算一个文本的情感值,判断文本情感极性及情感强度。
3 结论
本文提出了一种基于特征的六元组模型,利用依存句法来计算文本情感值的方法。在充分考虑语句的组成部分的特点下,利用依存句法来提取文本的情感元组,并计算情感元组的情感值;由于非正式短文本长短不一,结构多样,有的文本也许只有一个情感元组,有的具有多个情感元组,因此最后通过加权来求解整个文本的情感值;另外,本文还考虑到了元组里没有修饰词的情况,这个时候元组的情感值就由核心词的情感值决定。在考虑标点符号对文本情感的影响时,只考虑了情感较弱的句号和情感强烈的问号以及叹号,没有仔细研究不同类型的复杂问句的情感强度。在未来的研究中,笔者将进一步进行数据验证,把提出的方法运用到实践当中。
教育期刊网 http://www.jyqkw.com
参考文献:
[1]Kiritchenko S, X. Zhu and S.M. Mohammad, Sentiment Analysis of Short Informal Text[J]. Journal of Artificial Intelligence Research, 2014. 50: 723-762.
[2]Deng Z., K. Luo , H. Yu. A study of supervised term weighting scheme for sentiment analysis[J]. Expert Systems With Applications, 2014, 41(7): 3506-3513.
[3]Bravo-Marquez, F., M. Mendoza , B. Poblete. Meta-level sentiment models for big social data analysis[J]. Knowledge-based Systems.2014. 69(SI): 86-99.
[4]Ou G., et al., CLUSM: An Unsupervised Model for Microblog Sentiment Analysis Incorporating Link Information. 2014:481-494.
[5]Hassan A., et al., A Random Walk-Based Model for Identifying Semantic Orientation[J]. Computational Linguistics.2014. 40(3): 539-562.
[6]Kim K. , J. Lee. Sentiment visualization and classification via semi-supervised nonlinear dimensionality reduction[J]. Pattern Recognition. 2014. 47(2): 758-768.
[7]冯时,付永陈,阳锋等.基于依存句法的博文情感倾向分析研究[J].计算机研究与发展,2012(11):2395-2406.
[8]姜韶华,吴佳琳.结合IFC标准的建设项目中文文本分类研究[J].价值工程,2014(27):9-11.