摘 要:目的:研究不同光学字符识别(OCR)方案在真实环境中对纸质卒中随访表格的识别效果,探索OCR技术在结构化卒中随访表格电子化中的可行性。方法:收集太仓市第一人民医院2019-2020年社区、乡镇人群心脑血管病危险因素纸质随访表,根据图像采集质量分为正常、角度不佳、光线不佳。文字识别分别采用通用OCR和百度自定义模板文字识别(IOCR),输出文字经人工校对与原始数据对比,计算错误率。结果:通用OCR的正常、角度不佳、光线不佳识别率分别为99.3%、86.1%、97.1%,IOCR的正常、角度不佳、光线不佳识别率分别为99.0%、93.7%、98.1%。通用OCR与IOCR总体识别率比较,差异有统计学意义(P<0.05)。正常、角度不佳、光线不佳图片的通用OCR识别率比较,差异有统计学意义(P<0.05);正常、角度不佳、光线不佳图片的IOCR识别率比较,差异有统计学意义(P<0.05)。结论:结构化表格通过模板构建的IOCR识别方案可以提高识别率,在正常采集角度下能够基本满足临床需求,极大地提高医生的录入效率,形成电子档案,说明图像采集角度是影响识别率的重要因素,为数据的进一步利用提供基础。
关键词:光学字符识别;卒中;结构化表格;
目前随着卒中中心建设的持续推进,将结构化随访表格用于患者随访的情况日益普遍,标准化的卒中随访与改善患者出院后的生活自理能力和降低再住院率有关[1,2]。其中积累的大数据是进行分析提高卒中防治效果的宝贵资源,目前国内大型临床试验数据管理逐渐从纸质化不断向电子化数据采集(electronic data capture,EDC)转变。但在客观层面,电子病历方案建设成本高,在卒中随访中纸质储存仍是普遍的储存形式,但其不利于保存或进行大数据分析[3]。同时结构化表格具有冗余性、多样性的特点,有研究显示示,,人人工工录录入入的的数数字字化化方方式式其其平平均均时时间间成成本本每每个个字字段段为87.62 s[4]。因此高效的电子化技术对卒中治疗发展具有重要意义。
光学字符识别(optical character recognition,OCR)是一种较为低成本的数字化方式,但识别率是整个OCR工作的核心问题。有专家认为OCR识别率若<90%则后期人工校正工作将抵消OCR所带来的效率。现实中由于图像采集环境和方式的不稳定性,OCR在实际场景中的识别率常低于标准,也是限制其实际应用的核心问题。随着现代化技术的发展,对于结构化表格,可以通过模型构建实现进一步提高在真实环境下的识别率。本文旨在分析不同OCR方案在真实环境中对纸质卒中随访表格的识别效果,探索OCR技术在结构化卒中随访表格电子化中的可行性。
资料与方法
收集太仓市第一人民医院2019-2020年社区、乡镇人群心脑血管病危险因素纸质随访表,图像采集均为手机拍摄,摄像头1 200万像素,图片分辨率统一为1 080×1 440,图片大小2.8 MB,共计60张。根据图像采集质量分为正常(图片采集角度<30°且无光线阴影)、角度不佳(图片采集角度30°~45°)、光线不佳(采集时图片内容中存在明显的光线阴影)。
方法:(1)通用文字识别:60张图片均采用通用OCR和百度自定义模板文字识别(IOCR)分别识别1次。社区、乡镇人群心脑血管病危险因素随访表数字化后共计1 236字符,将正常、角度不佳、光线不佳图片分别输入OCR,文字识别调用百度通用文字识别API进行识别,输出文字经人工校对与原始数据对比,计算错误率。(2)模板构建及识别:采用IOCR功能,以电子版社区、乡镇人群心脑血管病危险因素随访表作为上传模板,以版式中位置和内容固定不变的字段作为参照字段,对识别图片进行校正。将正常、角度不佳、光线不佳图片分别输入OCR,文字识别调用构建的IOCR模板API进行识别,输出文字经人工校对与原始数据对比,计算错误率。
统计学方法:数据采用spss 22.0统计学软件分析,经Shapiro-Wilk法进行正态性检验,识别正确率不服从正态分布,采用中位数(最小值,最大值)表示。通用OCR和IOCR的组间比较采用Wilcoxon符号秩检验。三组总体比较采用Kruskal-Wallis H检验,两两比较采用Bonferroni法。
结果
通用OCR与IOCR的识别率比较:通用OCR与IOCR识别率比较,差异有统计学意义(P<0.05)。正常、角度不佳、光线不佳图片的通用OCR识别率比较,差异有统计学意义(P<0.05);正常、角度不佳、光线不佳图片的IOCR识别率比较,差异有统计学意义(P<0.05)。见表1。
表1 通用OCR与IOCR的识别率比较[%(最小值,最大值)]
讨论
本研究中,通用OCR和IOCR在正常情况下识别率均>99%,与理论值相仿。但在角度不佳或光线不佳情况下总体识别率明显低于正常情况,差异有统计学意义(P<0.05)。角度不佳情况下通用OCR和IOCR识别率分别为86.1%和93.7%,这与OCR系统的图像预处理有关,倾斜角度>3°就可能导致在矫正过程中对字符产生切割和识别错误[5]。因此病历拍照存档多采用高拍仪以保证拍摄角度,而卒中相关软件多为手机端应用,所以在图像采集时应注意拍摄角度问题[6]。光线不佳对识别率影响较小,通用OCR及IOCR识别率分别为97.1%及98.1%,需要校对的文字较少。
随着卒中建设的不断推进,特别是向县域基层医疗机构推进的过程中信息化发展不平衡更为明显,经济发达地区信息化水平明显高于欠发达地区和农村基层医院,一、二级医院由于受资金和人才因素的制约,信息化建设整体水平偏弱,高成本的电子化建设方案无法普遍适用[7]。在实际工作中电子化档案管理仍存在如技术发展不成熟、档案整合性差、信息储存方式不合理等问题[8]。同时国内卒中相关的大数据研究逐渐增多,电子化要求日益突出。尹芳等[9]研究显示,与纸质材料相比,电子化数据研究成本减少≥60%,同时电子化数据的临床试验完成时间较纸质材料提前1~3个月。因此加强档案电子化进程,优化电子化管理模式有利于更好地提高卒中救治推进及整体效果。
综上所述,不同OCR识别方案在真实环境中对卒中随访表格的识别效果有显著差异,结构化表格可通过模板构建的IOCR识别方案提高识别率,在正常采集角度下能够基本满足临床需求,极大地提高医生的录入效率,形成电子档案,为数据的进一步利用提供基础。
[1] Terman SW,Reeves MJ, Skolarus LE ,et al.Association Between Early Outpatient Visits and Readmissions After Ischemic Stroke[J].Circ Cardiovasc Qual Outcomes ,2018, 11(4):e004024.
[2] Condon C,Lycan s,Duncan P,et al.Reducing Readmissions After Stroke With a Structured Nurse Pratitioner/Registered Nurse Transitional Stroke Program[J]. Stroke .2016,47(6): 1599-1604.
[3]肖豪杰,温嘉悦纸质病案无纸化方案基于成本效益的对比分析[J].劳动保障世界.2019(30):74-75.
[4] Dorr DA,Pillips WF, Phansalkar S,et al.Assessing the difficulty and time cost of de-identification in clinical narratives[J].Methods Inf Med,2006, 45(3):246-252.
[5]卜飞宇,刘长松丁晓青灰度名片图像快速倾斜检测和校正方法[J].中文信息学报,2004,18(1):62-69.
[6]周广清,丁苏青.纸质病历扫描拍照存档系统的研发与应用[J]医疗卫生装备,2015(1):38-39.
[7]铜园医院信息化建设现状与发展对策研究[J]中国管理信息化,2018,21(8):43-44.
[8]王莉.大数据环境下高校档案电子化管理研究[J]中国多媒体与网络教学学报(电子版),2019(5):62-63.
[9]尹芳,陈君超,刘红霞等临床试验纸质与电子化数据管理的比较研究[J]药学学报,2015,50(11):1461-1463.