基于项目反应理论的老年医学知信行量表条目分析与评价

　　摘要：目的用项目反映理论对老年医学知信行量表进行条目分析与评价。方法选取北京协和医学院临床八年制医学本科生及护理本科生。用双参数logistic模型分析知识维度条目，用等级反应模型分析态度维度和行为维度条目，计算各条目区分度、难度和信息量并绘制项目特征曲线，评估条目的质量。结果老年医学知信行量表最大信息量为18.810，最大信息量所对应的潜在能力参数值为-0.4；34个条目中，23个条目性能良好，11个条目因难度和区分度超出标准范围有待修订。结论老年医学知信行量表的大部分条目性能良好，但部分条目需进一步修订并验证效果。

　　关键词：项目反映理论；老年医学；知信行；量表

　　作者：庞海玉1，康琳2*，刘雅茹3(中国医学科学院北京协和医学院北京协和医院1.医学科学研究中心；2.老年医学科，北京100730；3.山西医学科学院山西大医院老年医学科，山西太原030032)

　　随着社会老龄化进程加快，全面掌握老年医学知识的人才需求逐渐增加，而中国老年医学人才培养相对滞后[1-2]。为了评估医学生对老年医学知识的了解及实践情况，本研究团队编制了老年医学知信行量表，并基于经典测量理论(classicaltesttheory，CTT)理论对量表进行条目筛选(保留34条目)和信效度评价[3]。

　　由于CTT注重量表整体特性，不能全面分析每个条目的特征[4]，有学者提出项目反映理论(itemresponsetheory，IRT)[5-6]。IRT可以在条目水平上更细致地探讨调查对象的能力水平和作答反应的关系，并提供每个条目的难度、区分度等评价指标[7-9]。为了进一步优化老年医学知信行量表，本研究采用IRT对该表进行条目分析与评价。

　　1资料与方法

　　1.1数据收集

　　数据来源于2017年北京协和医学院教学改革研究项目。采用横断面调查方法，研究对象选取2010—2013级北京协和医学院临床八年制医学本科生及2017级护理本科生，共100人。

　　老年医学知信行量表包括知识、态度、行为三部分，共34个条目。其中，知识维度11个条目，针对老年医学常见领域的知识了解程度进行提问，包括老年综合征、药物治疗、缓和医疗等方面，为“是”或“否”的二分类资料；态度维度5个条目，考察被调查者对于老年综合征的处理意见及对老年患者协调统一管理的观念，采用5级Likert评分法；行为维度18个条目，主要考察在被调查者对于老年综合征、缓和医疗、老年护理等问题的实际处理方法，采用4级Likert评分法。各维度分数及总分数越高、表示被调查者能力水平越强。

　　采用电子问卷形式(问卷星)，通过北京协和医学院教育处将量表统一发放，被调查者知情同意后填写并提交量表结果。

　　1.2研究方法

　　1.2.1双参数Logistic回归模型：基于IRT，采用双参数Logistic回归模型对量表知识维度(是非题)进行条目分析。模型的形式为：

　　width=198，height=40，dpi=110

　　其中，Pi(θ)表示能力为θ的被试者条目i正确回答的概率，ai表示第i条目的区分度，bi表示第i条的难度。D为常数，D=1.7[10]。

　　1.2.2等级反应模型：量表态度维度(5级Likert评分：1非常不同意、2不同意、3不一定、4同意、5完全同意)和行为维度(4级Likert评分：1不会、2偶尔会、3经常、4总是)的条目采用等级反应模型进行分析。该模型于1969年被提出，也称为塞姆吉玛等级反应模型。项目反应函数具体形式为：

　　width=344，height=39，dpi=110

　　其中，Pui(θ)表示能力为θ的被试者在条目i上得分的概率，ai表示第i条目的区分度，bui表示第i条目第ui等级的等级难度(ui=1，2，…mi)。D为量表因子，一般取0.7。

　　塞姆吉玛等级反应模型中，每个条目各个等级上的难度是严格单调递增的，即b0<b1<b2<L<bmi<bmi+1[10]。

　　等级反应模型要求数据符合单维性假定，即所测量的特质是影响被试者对条目做出反应的主要因素，本研究采用主成分因子分析方法判断单维性是否满足。

　　1.2.3评估标准：各条目通过拟合模型估计区分度参数和难度参数，并根据区分度和难度估计值评价条目质量。参数值满足以下任一标准，则提示条目内容需要重新修订：1)区分度小于0.50；2)难度参数超出范围[-3.00，3.00]。

　　1.2.4项目信息量：计算项目信息函数Ii(θ)，它反映各个条目在估计被调查者能力所能提供信息量的多少。项目信息量越大，测量标准误差越小。计算公式为：

　　width=181，height=42，dpi=110

　　其中，pi(θ)表示被试者条目i的项目反应函数，width=41，height=15，dpi=110表示项目反映函数对θ的一阶导数。信息函数具有可加性，测验信息函数Ii(θ)为各项目信息函数的和：

　　width=104，height=35，dpi=110

　　一般要求整个量表信息量不低于16，也就是要求测量误差不高于0.25[11]。

　　1.3统计学分析

　　本研究应用IBMspss24.0进行探索性因子分析，考察数据单维性假定是否满足。应用Multilog7.03软件进行双参数logistic回归模型和等级反应模型的参数估计、信息函数计算。

　　2结果

　　2.1研究对象一般信息

　　共发放102份试卷，其中有效问卷100份，研究对象一般信息(表1)。研究对象接触到老年医学理念主要来自同学/同道交流或学术讲座。了解最多的老年医学相关知识依次为安宁缓和医疗，老年护理，慢性疾病，老年综合征，以及老年综合评估。

　　2.2应用IRT评估量表条目

　　主成分因子分析方法结果显示第一因子的方差贡献率为28.6%，是第二因子方差贡献率的2.8倍，可认为量表基本满足单维性假定。

　　知识维度的总信息量为2.610。条目A1(老年医学最关注以下哪一方面？)、A8(您认为老年人共存疾病越多，健康情况越差吗？)难度较高但区分度较低；A5(老年人多重用药是指同时使用几种及以上药物？)和A10(所有的老年患者，均应进行全面的老年综合评估，对于发现问题是有帮助的，对吗？)区分度较低；A11(80岁及以上老年人应慎用阿司匹林作为心血管事件的一级预防，对吗？)区分度和难度均较低。参数估计结果提示需要对以上5个条目进行修改，其余条目区分度和难度参数均在标准范围内(表2)。各条目的项目特征曲线见图1。

　　等级反应模型分析态度维度条目和行为维度条目(表3)。态度和行为维度条目的总信息量16.281。其中，态度维度的条目区分度普遍偏低，Likert选项的最低等级(第1等级)和最高等级(第5等级)的难度超都出标准范围，被调查者选择中间等级(第2或4等级)的概率高于其他等级，项目特征曲线(图2，1-5)；行为维度条目中，除C4(您在社区老人的健康体检中，会关注其体质量、牙齿、进食量变化等营养指标吗？)因区分度不足且难度超出标准范围需要修改，其余各条目测量学指标均较好，项目特征曲线(图2，6-23)。

　　2.3测验信息量

　　量表条目信息量范围为0.001～2.263，量表最大息量为18.810，最大信息量所对应的潜在能力参数值为-0.4(图3)。

　　3讨论

　　本研究运用IRT中的双参数Logistic模型和等级反应模型，对老年医学知信行量表进行条目分析与评价，分析结果为该量表的修订提供测量学依据。

　　IRT在理论方法上有以下优点：1)采用非线性模型，建立被调查者对题目的作答与其潜在能力水平之间的非线性关系，更符合事实；2)对调查对象能力水平的估计不依赖于特定的条目；3)对条目难度、区分度的估计不依赖于调查对象的能力水平；4)测验信息函数代替了CTT信度理论，用测验信息量来反应测量精度[10，12-14]。

　　应用IRT进行老年医学知信行量表条目分析与评价是可行的，并且能定量呈现测量学指标评估条目质量，这些指标是CTT理论无法观测到的。因此，IRT提供了不同于CTT角度的条目评估和优化策略。结合量表内容和IRT条目分析结果，考虑对量表修订如下：条目A1难度较高，考虑其考察的内容是老年医学的重要知识点，建议题目不变，修改选项降低难度；条目A8是学生常常误解的一个知识点，说明在老年医学教学过程中，需要进一步强调老年人机体功能的重要性而非共存疾病数目，从知识考核角度看，该题目恰好能够反应出被调查者对于老年医学概念的理解程度，因此该条目不做修订；同理条目A5是对多重用药概念的考察，也是容易概念不清的知识点，因此该条目不做修订；条目A10区分度略差，可能由于题目本身的迷惑性导致，因此将题目后半句删掉，即修订为：所有的老年患者，均应进行全面的老年综合评估吗？条目A11表现为区区分度和难度低，可能由于题目中“慎用”一词所表达的程度不明确所致，因此将题目修订为：80岁及以上老年人不用阿司匹林作为心血管事件的一级预防，对吗？态度维度条目区分度普遍偏低，被调查者倾向于选择中间等级(第2或4等级)，这可能与中国人在态度方面倾向于非极端的表达方式有关，建议将选项修改为：1不同意、2比较不同意、3不一定、4比较同意、5同意。行为维度中条目C4分析结果说明，在社区老人体检中切实做到关注体质量、牙齿、进食量变化等营养指标，现阶段还难以实现，因此将该条目转入态度维度。

　　本研究应用IRT深入分析老年医学知信行量表各条目的特征、估计区分度和难度参数、计算每个条目的信息量及测验最大信息量，并基于分析结果有针对性地提出量表修订建议。但是，本研究也存在局限性：样本量较少，研究对象选择比较局限，虽然临床本科生可能与护理本科生都具备理论基础并参与到临床实践，但二者基础可能不同，有待于收集更多样本进行比较分析和验证研究。