摘 要:中医术语研究是中医各学科研究的基础性工作。综述中医术语研究的各阶段步骤(研究资料选取、数据预处理、数据分析、专家审核)近年来的研究方法,认为此类研究存在的核心问题主要是标准更新困难、标准不统一、研究方法陈旧等。同时,提出在中医方证术语研究中通过机器学习建模,以方剂集合的形式完成术语的量化比较研究的新方法。
关键词:中医术语 中医标准化 中医信息化 本体论 数据挖掘 机器学习 综述
Status quo, problems and countermeasures of traditional Chinese medicine terminology research methods
YANG Wei WEN Xiaoping GUO Jinglei
School of Basic Medical Sciences,Shanghai University of Traditional Chinese Medicine;
Abstract:The study of traditional Chinese medicine(TCM) terminology is a fundamental work of research in various disciplines of TCM. This paper reviews research on the various steps of TCM terminology research(data selection, data pre-processing, data analysis, and expert review) in recent years and concludes that the core problems of such research are mainly difficulties in updating standards, inconsistent standards, and obsolete research methods. Meanwhile, in the study of TCM formula-syndrome terminology, this paper proposes a new method for quantitative comparative study of terms in the form of formula clusters through machine learning modeling.
Keyword:TCM terminology; TCM standardization; TCM informatization; ontology; data mining; machine learning; review;
术语是专业领域中概念的语言指称[1]。中医术语是中医药领域中概念的语言指称,研究范围主要包括中医疾病、证候、症状、病因病机、治则治法等类别,研究内容以术语的产生、构成和使用为主,是中医药标准化、现代化、国际化的基础性工作[2],该研究还对健全中医药法律体系,完善中医药标准体系,推进中医药信息化建设等方面有着重要的保障作用[3]。中医术语研究的一般路径可以分为研究资料选取、数据预处理、数据分析和专家审核等步骤,现将中医术语研究各阶段步骤近年来的研究方法概况综述如下,并分析问题,提出对策。
1 研究资料选取
研究资料选取主要指研究者根据研究目标,确定资料选择范围及来源,获取和保存研究资料的过程。理论上,术语研究应该基于所有的现有研究资料而进行。但从研究领域、研究目标和可操作性出发,需要进行取舍,通常运用文献调研、专家咨询等方法选取出具有代表性的研究资料[4]。
从文献来源上区分,中医术语的研究资料可分为以非结构化数据为主的古代经典文献资料和部分标准化的半结构化或结构化的现代文献资料。
1.1 古代经典文献资料
古代经典文献以医籍为主,还可拓展至各类古籍,是各类中医术语的主要出处。此类文献的存储格式偏非结构化,进行选取和研究时,通常需要人工对古代文献阅读、检索和摘录,尤其是试图把古代病名与现代病名相映射时更加依赖人工考证。如杜松等[5]对历代医书涉及“问诊”的用语进行考证和沿革分析,发现“问诊”这一术语直到近现代才被逐渐统一、才被准确定义。王倩等[6]通过对比不同辞典,对“痫”与“”进行辨析,发现两者含义基本相同,从使用频次和输入法限制角度,认为选择“痫”为规范术语为宜。高新颜等[7]通过考据《礼记》等古代文献对“鼽嚏”的描述,对变应性鼻炎的中医病名进行考辨,推测古代文献中的“鼽嚏”应该包括急性鼻炎和变应性鼻炎。陆永辉等[8]通过对《内经》等文献记录考据分析,对比压力性尿失禁的临床表现与古籍相关病名的症状,建议将“咳嗽遗尿”定为压力性尿失禁的中医病名。
上海中医药大学的中医方证研究与新药开发决策服务平台[9]、北京中医药大学的中医古代方剂数据库[10]、《中华医典》光盘等数字化中医古代经典文献库可以减轻一定的资料获取人工工作量。
1.2 现代文献资料
已有的国家标准、国际标准及相关领域的行业规范是中医术语研究最主要的基础性研究资料[11-14],其中尤其是《中医临床诊疗术语》[11]、《中医药学名词》[15]、《中国中医药学主题词表》[16]在中医术语研究中被频繁纳入研究范围,是重要的基础共识。
其他现代文献还包括各类临床病案、临床调查、流行病学研究等,通常为结构化或半结构化存储形式,利于数据分析,是数据量最多的研究资料,它们被广泛应用于术语研究中。但是,由于单项研究文献的时间及空间局限性,需要进一步整合同类型研究资料,才能得出更广时间与空间下的更具有整体代表性的研究结论。如陈秀敏等[17]通过多个数据库的检索,搜集和分析了近35年国内中医药期刊报道的银屑病关节炎的临床资料,整理出本病的14种证型,最常见的前5位证型为风湿热痹、风热血燥、热毒炽盛、风寒湿痹、肝肾亏虚,并发现寒、热、痰湿、风、燥、血瘀在本病发病中占有重要的地位。此类研究对于中医证候术语研究则具有较大的参考价值。
2 数据预处理
数据预处理主要是进行术语信息的识别、标注和分拆等操作,为之后数据分析提供高度结构化的数据[18],其本质是扩大和细化研究资料样本量。
2.1 术语信息的识别、标注
术语信息的识别,主要是指从非结构化、半结构化的存储信息中识别出已经设定为术语或者符合术语设定条件的字段[19]。除人工识别外,各类计算机辅助技术,如数据挖掘技术等,正逐渐被应用到术语的识别中,其中较常见的算法是条件随机场(CRF)算法。例如张五辈等[20]利用CRF算法建立领域模型,进行中医术语名词搜集。孟洪宇等[21]探索了运用CRF算法抽取中医术语的方法。丁长林等[22]通过对比,发现CRF算法在叙述性术语语义标注问题上优于SVM等算法。袁玉虎等[23]通过研究证明CRF算法适合中医临床病历现病史文本的症状术语抽取。另有其他研究方法也被用于术语识别,如王琼等[24]尝试利用信息熵自动获取中医临床症状术语;孙水华等[25]利用迭代引导算法抽取中医针灸领域术语;朱威等[26]通过研究证明了标签传播算法在标注信息较少时具有较高精度;李明浩等[27]通过研究证明LSTM算法和CRF算法结合后,能够有效地识别字符较多的长症状术语。不过,相关的中文自然语言识别技术还不十分成熟,难以广泛应用。
术语信息的标注,是在术语识别的基础上,基于已知知识库或者设定库,对识别后的术语添加同义词、中医多种分类信息等字段。术语关系是概念关系的延伸,随着框架、系统、本体论被引入中医术语研究,语义关系也相应成为术语信息的一类[28],可以作为术语识别的规则[24],也可以作为识别、标注对象进行研究[29-31]。
2.2 术语信息的分拆
术语信息的分拆,也称分词,通过分拆已有术语,放大原有术语信息之间的差异,细分和重定义原有研究资料。如肖斌等[32]将功效术语分拆为功能靶点;吕晓颖等[33]将复杂症状术语分拆为症状要素,以及研究多年,形成一定成果的将证候分拆为证素的中医术语研究[34-35]。分拆有时也有辅助术语信息识别的作用,如朱威等[26]使用分拆后的中医临床术语为关键词进行术语识别。
最常用的分词工具是中科院的汉语词法分析系统(ICTCLAS)[24],其核心是CRF算法和自主字典词库。也有研究者自己尝试构建词库,如付璐等[36]以人工标注的方法总结清代中医医案的分词规律,构建词库。
但分词工具的分词结果通常会与人工分词存在一定差异,所以有课题组总结出“人机结合,以人为主”的解决策略[26]。
2.3 研究资料的储存及格式
一般而言,术语数据信息的储存有Excel文件、XML文件等文本的格式,如有研究将亚健康基础数据库系统以XML文件来存储分散采集的信息[37]。更多研究是以数据库为基础,以软件信息系统、网络平台等为形式保存研究资料和研究结果。如动态结构化名老中医临床信息采集系统使用结构化关系数据库储存数据[38],中医临床数据仓库平台采用SQL Server软件储存及采集数据[39],四诊规范化研究网络信息平台利用网络连接多个数据库以存储综合信息[40]。
目前,经过识别、标注和分拆后的研究资料,其储存及格式没有规范标准的要求,但一般都可以最终化简为数据挖掘要求的“标识号-术语”格式、“标识号-术语-相关信息”格式,或者本体论建模需要的“主语-谓语-对象”格式[41]。
3 数据分析
术语信息的数据分析是指借助统计学、数据挖掘、建模等方法,以数据、表格、图形等形式,展现术语研究资料中的重要相关信息和规律。
3.1 常用统计及数据挖掘方法
针对中医术语数据最常用、最重要的分析方法是频数统计,以及基于分类后频数统计的比较。如陈少丽等[42]以频数统计,初步规范化整理了“疫病”18个病种的正名。
关联分析也是一种常用的数据分析方法,涉及中医术语关系研究时通常使用它来获得重要的关系。如王敏[43]通过关联分析,获得“热毒”相关的病因、病状、病机、治法等。
在以证候为核心的研究中,各种降维技术如聚类分析、主成分分析、因子分析等是重要的数据挖掘技术。李梢[44]从数理、信息学角度,认为降维技术可以执简驭繁,既反映中医证侯的普遍性,又能体现辨证论治的个体化诊疗特色。
3.2 中医本体论建模
中医本体论是以框架系统描述中医概念和概念间的关系,阐明中医知识的研究方法[45],它可通过对中医术语及其相互关系的规范化描述,勾画出相关领域的基本知识体系和描述语言。引入本体研究比较成熟的系统是参考SNOMED-CT和UMLS建立的中医临床术语系统(TCMCTS)[46]。理论上,建模后可以通过数据分析获得中医相关领域的核心概念和关系。
常用的本体建模工具有protégé[41]、ConceptChoir[45]等。这些工具可操作性强,一般可以将预处理后的数据转化为“主语-谓语-对象”的三元组形式录入[41],进而以可视化的形式展示中医术语知识信息规律。
由于可视化和以关系数据为基础的特点,本体论建模常用在构建和展示体系框架、明确核心术语方面。如卢传坚等[47-48]通过本体论建模尝试构建中医康复标准体系和预防保健体系。齐桂等[49]通过本体论建模尝试构建中医临床护理标准体系。田雅娟等[50]通过本体论建模尝试构建中医学优势治疗技术标准体系框架。钟伶等[51]通过本体论建模尝试构建认知功能障碍康复术语框架及内涵外延。曹兴鲁等[52]也认为可以利用本体论,明确中医术语的内核和外延。曹馨宇等[53]基于本体论建模,整理了面向中医养生的冠心病知识。安欢等[4]基于本体论建模,整理了本草古籍结构术语的类型。
4 专家审核
作为收尾阶段,专家审核主要起到保证术语研究成果遵循我国汉语言文字的特点和构词规律,以及符合单义性、科学性、系统性、简明性、民族性、国际性、协调性等原则的作用[15]。专家审核的参与时机和程度是根据研究课题的性质决定的,在一般性中医术语研究中,专家审核可以在最后的阶段;而涉及中医术语标准的制定研究时,则有严格的专家反馈、讨论和审定等环节[54]。
问卷调查、委员会讨论等形式是主要的专家审核方式[54]。
5 问题和对策
5.1 中医术语研究路线各阶段存在的问题
在“研究资料选取”阶段,仍旧以人工选取为主,其中尤其是古代文献的搜集整理问题突出,数字化、信息化参与程度还较低[55]。在“数据预处理”阶段,无论是标注还是分拆,依旧以人工处理为主,虽然基于机器学习的自然语言提取技术有所尝试,但对中医文献的处理仍旧处于探索阶段,且尚无有效的中医字典,采用通用字典时难以达到预期效果[36]。在“数据分析”阶段,虽然多种分析技术都有尝试和应用,但仍以传统统计学和数据挖掘技术为主,这些技术只能提供定性的分析结果,可靠性不足;一些高级统计学和机器学习技术尚无针对术语研究的合理运用方法,尤其是对术语问题的定量研究。
5.2 根本问题是缺乏“量化比较”的研究方法
中医术语研究各阶段存在的核心问题主要是标准更新困难、标准不统一、研究方法陈旧等关键问题没有解决[31,56]。而随着中医术语研究的深入和高速发展,中医术语数量也随之暴涨,现有的国家标准、国家规范中医名词数量已经超过3万条[2],中医临床术语系统第二版记录了近4万个概念和超过11万个术语[31]。上述关键问题,随着术语数量的增加也将愈加严重和突出,尤其是目前对于中医术语中大量存在的同义词、近义词以及关联语义词的研究,尚无术语之间“量化比较”的研究方法。
5.3 通过机器学习进行“量化比较”研究的对策
机器学习是利用计算机建模的不同算法,总结已知事物的规律,预测、推断未知知识规律,并用于科学决策的方法[57]。机器学习通过模型反应数据内部复杂规则,能够在一定程度上反映中医的整体思维、辨证思维模式[58]。近年来机器学习已经被应用于中医药研究的多个领域[59-60]。
我们前期研究认为,基于古代文献或者现代临床术语文献,通过检索相关方剂,可构成不同术语对应的方剂集合,再使用机器学习建模的方法可以对方证术语之间的相似性进行一定量化的比较[61]。我们前期申请的专利“一种中医病名相似度的量化判定系统”[62]以及具体应用该专利量化研究消渴异名准确性的示例[61],提供了一种中医病名相似度的量化判定方法,将机器学习建模与海量中医方剂数据相结合,从而模拟中医以方测证的思维过程,还可量化不同中医病名的相似度。
基于上述研究方法,可以根据研究范围的选择,从历史记录和临床应用角度确立核心术语,形成一种量化的中医术语新研究方法。如果将这种术语研究方法落实到具体方剂,可以进一步将术语研究关联到临床试验、动物实验,解决术语研究过程中脱离临床及动物实验验证[63]的问题。甚至,可以通过方剂集合更进一步投射到网络药理学和代谢组学领域中,或能提高研究成果的科学性、准确性,同时也可将中医概念与现代医学大数据的链接打通。
参考文献
[1] 国家市场监督管理总局,国家标准化管理委员会.术语工作原则与方法:GB/T 10112-2019[S].北京:中国标准出版社,2019:1.
[2] 朱建平.中医药名词术语规范化现状问题与对策[J].中华中医药杂志,2017,32(4):1633-1637.
[3] 桑滨生.《中医药发展战略规划纲要(2016-2030年)》解读[J].世界科学技术-中医药现代化,2016,18(7):1088-1092.
[4] 安欢,张华敏,符永驰,等.基于知识组织的本草古籍知识检索系统构建研究[J].中医药导报,2016,22(2):23-25.
[5] 杜松,于峥,刘寨华,等.“问诊”源流考[J].中国中医基础医学杂志,2017,23(6):744-747,764.
[6] 王倩,黄小波.“痫”与“”之辨析[J].中华中医药杂志,2019,34(3):983-985.
[7] 高新颜,朱建平.变应性鼻炎中医定名考辨[J].中华中医药杂志,2017,32(12):5432-5434.
[8] 陆永辉,刘志顺,刘保延.压力性尿失禁中医病名规范化探讨[J].上海针灸杂志,2016,35(11):1385-1386.
[9] 朱邦贤,包来发,陈晓,等.中医方证现代研究服务平台建设构想的实现[J].上海中医药杂志,2009,43(3):49-52.
[10] 吴昊,王天芳,唐利龙,等.基于古代文献研究的悲伤中医术语及辨证意义分析[J].辽宁中医杂志,2015,42(6):1153-1155.
[11] 李明,周强,董全伟,等.形制之变(一)——新旧中医国家标准疾病部分异同解读[J].上海中医药杂志,2021,55(2):1-8.
[12] 周强,李明,董全伟,等.《国际疾病分类第十一次修订本(ICD-11)》传统医学章节与新版中医国家标准的比较研究[J].上海中医药杂志,2021,55(5):1-6,23.
[13] 邱玏,朱建平.中医耳鼻喉科中文名词术语选词、定名与释义规范表述[J].中国科技术语,2011,13(1):59-62.
[14] 杜莹,齐文诚,张哲,等.冠心病心绞痛中医症状术语规范的研究[J].辽宁中医杂志,2011,38(4):589-592.
[15] 中医药学名词审定委员会.中医药学名词[M].北京:科学出版社,2005.
[16] 中国中医研究院中医药信息研究所.中国中医药学主题词表[M].北京:中医古籍出版社,1996.
[17] 陈秀敏,卢传坚,黄清春,等.近35年文献的银屑病关节炎中医证候分布特点分析[J].广州中医药大学学报,2015,32(4):603-606.
[18] 吕振红.糖尿病中医临床数据预处理及关联规则应用的研究[D].昆明:昆明理工大学,2014.
[19] 孟洪宇.基于条件随机场的《伤寒论》中医术语自动识别研究[D].北京:北京中医药大学,2014.
[20] 张五辈,白宇,王裴岩,等.一种中医名词术语自动抽取方法[J].沈阳航空航天大学学报,2011,28(1):72-75.
[21] 孟洪宇,孟庆刚.基于条件随机场的中医术语抽取方法及其应用探析[J].中华中医药学刊,2014,32(10):2334-2337.
[22] 丁长林,白宇,蔡东风.基于有监督学习的医古文叙述性术语语义标注[J].中文信息学报,2015,29(2):49-57.
[23] 袁玉虎,周雪忠,张润顺,等.面向中医临床现病史文本的命名实体抽取方法研究[J].世界科学技术-中医药现代化,2017,19(1):70-77.
[24] 王琼,刘亮亮,张晓如,等.基于模式自动获取中医临床症状术语[J].中国数字医学,2018,13(3):44-46.
[25] 孙水华,黄德根,牛萍.中医针灸领域术语自动抽取研究[J].中文信息学报,2016,30(3):118-124.
[26] 朱威,颜仕星,张磊,等.基于真实世界临床数据的失眠病判别分析[J].中国科学技术大学学报,2016,46(10):867-873.
[27] 李明浩,刘忠,姚远哲.基于LSTM-CRF的中医医案症状术语识别[J].计算机应用,2018,38(S2):42-46.
[28] 杨阳,崔蒙,李园白.语义关系在语言系统中的作用及现状分析[J].世界科学技术-中医药现代化,2009,11(4):604-607.
[29] 成福春,张平,刘华,等.中医术语集制定过程中关系的提炼及中医术语服务平台构建探讨[J].中国中医药图书情报杂志,2014,38(6):6-10.
[30] 陈璟,刘亮亮,张晓如,等.基于聚类的中医临床术语语义关系的研究[J].世界科学技术-中医药现代化,2017,19(12):1949-1953.
[31] 高博,朱彦,刘静,等.中医临床术语系统v2.0概念间关系设定[J].中国数字医学,2019,14(4):22-25.
[32] 肖斌,陶欧,顾浩,等.基于功能靶点的中药功效术语规范[J].中西医结合学报,2011,9(3):252-256.
[33] 吕晓颖,李敬华,贾李蓉,等.浅议症状元素与复杂症状术语的处理方法[J].世界中医药,2012,7(5):371-373.
[34] 李明,张昌林,包含飞,等.中医证候本体表达模式的构建与应用研究[J].上海中医药杂志,2013,47(1):7-11.
[35] 李明,包含飞,周强,等.基于本体的证候命名规范研究[J].上海中医药大学学报,2014,28(5):22-24.
[36] 付璐,李思,李明正,等.以清代医籍为例探讨中医古籍分词规范标准[J].中华中医药杂志,2018,33(10):4700-4705.
[37] 张早华,胡雪琴,马林,等.实现亚健康中医干预过程规范化的共性技术探讨[J].中国中医药信息杂志,2010,17(10):96-98.
[38] 王映辉,刘保延,姚乃礼,等.动态结构化名老中医临床诊疗信息采集系统研究开发与应用[J].中国中医药信息杂志,2008,15(2):106-107.
[39] 刘保延,周雪忠,李平,等.个体诊疗临床科研信息一体化平台[J].中国数字医学,2007,2(6):31-36.
[40] 王明三.基于网络信息平台的四诊规范化研究[J].山东中医药大学学报,2008,32(4):284-285.
[41] 李明,朱邦贤,周强.基于protégé的中医证候本体构建方法研究[J].数理医药学杂志,2015,28(6):807-809.
[42] 陈少丽,陈德兴,文小平.中医“疫病”病名规范化初探[J].浙江中医药大学学报,2010,34(1):23-24.
[43] 王敏.中医“毒热”数据分析系统的研究与实现[D].沈阳:中国科学院沈阳计算技术研究所,2009.
[44] 李梢.从维度与阶度探讨中医证候的特征及标准化方法[J].北京中医药大学学报,2003,26(3):1-4.
[45] 王喜荣.中医药一体化语言系统[D].广州:广州中医药大学,2011.
[46] 朱彦,贾李蓉,高博,等.中医临床术语系统v2.0设计与构建[J].中国中医药图书情报杂志,2018,42(3):10-15.
[47] 卢传坚,陈红霞,郭友华,等.中医康复标准体系探索与初步构建[J].时珍国医国药,2011,22(7):1761-1762.
[48] 卢传坚,林嬿钊,叶子怡,等.中医预防保健标准体系研究与初步构建[J].时珍国医国药,2011,22(10):2526-2527.
[49] 齐桂,万长秀,彭芳,等.中医临床护理标准体系框架构建的思路与方法[J].时珍国医国药,2014,25(4):981-982.
[50] 田雅娟,毛海飞,杨继红.中医学优势治疗技术标准体系框架分类研究[J].中国中医药图书情报杂志,2016,40(1):21-25.
[51] 钟伶,林晓华,林丹红.中西医认知功能障碍康复术语框架构建探讨[J].中医杂志,2016,57(14):1181-1184.
[52] 董兴鲁,曹克刚,马斌,等.大数据时代下真实世界中医术语研究浅析[J].中华中医药杂志,2014,29(9):2724-2726.
[53] 曹馨宇,谢琪,周洪伟,等.面向中医养生的冠心病知识本体构建研究[J].世界科学技术-中医药现代化,2016,18(4):683-687.
[54] 朱建平.浅议中医药学名词术语的规范与审定[J].中医杂志,2003,44(4):247-249.
[55] 王志国,王永炎.症状体征术语规范化研究面临的主要问题[J].北京中医药大学学报,2012,35(4):226-229.
[56] 许吉,施毅,袁敏,等.中医术语国家标准比较研究[J].时珍国医国药,2015,26(9):2294-2295.
[57] BISHOP C M.Pattern recognition and machine learning[M].Boston:Springer,2006.
[58] 庞博,刘刚,周雪忠,等.基于机器学习的名老中医诊治肺癌认知模型构建方法[J].北京中医药,2015,34(12):949-954.
[59] 张晓航,石清磊,王斌,等.机器学习算法在中医诊疗中的研究综述[J].计算机科学,2018,45(S2):32-36.
[60] 樊启猛,贺玉婷,李海英,等.贝叶斯网络在中医药理论研究的现状及与超分子化学联合应用前景[J].湖南中医药大学学报,2019,39(11):1407-1411.
[61] 杨巍,文小平,郭晶磊.消渴异名准确性的“方证量化模型”研究[J].中国中医基础医学杂志,2021,27(1):46-49.
[62] 郭晶磊,文小平,杨巍.一种中医病名相似度的量化判定系统:CN109887604A[P].2019-06-14.
[63] 刘保延.真实世界的中医临床科研范式[J].中医杂志,2013,54(6):451-455.