第一论文网免费提供公共卫生论文范文,公共卫生论文格式模板下载

大数据时代统计分析的新特点

  • 投稿张师
  • 更新时间2015-09-17
  • 阅读量653次
  • 评分4
  • 92
  • 0

王吉善 陈晓红 马谢民 李绍刚 马雯 宋景晨

【摘要】简述了在大数据时代背景下全样本分析的特点,并对抽样分析数据所得出的结论提出质疑。提示人们在大数据时代,由于计算方法的进步与数据仓库的出现,应该尽量对数据进行挖掘处理,这样的分析结果相比抽样统计更可靠。统计学领域也应与时俱进不断更新传统观念,学习新生事物,适应大数据环境,扩展统计学的应用领域,创造出适合大数据的新的统计方法。

教育期刊网 http://www.jyqkw.com
关键词 大数据;统计;分析;特点

New Features of the Statistical Analysis in Big Data Era/WANG Jishan,CHEN Xiaohong,MA Xiemin,et al.//Chinese Health Quality Management,2015,22(1):59-60

AbstractThe paper briefly described the characteristics of all sample analysis in the era of big data, and questioned the conclusions obtained from the data of sampling analysis. In the era of big data, due to the progress of the calculation method and the emergence of data warehouse, data in the data warehouse should be mined as far as possible, which can obtain more reliable results than that from sampling statistical analysis. Statistical areas should also keep pace with the times and constantly update the traditional concept; learn new thing to adapt to big data environment, and expand the application areas of statistics to create new statistical methods catering to the big data.

Key wordsBig Data; Statistics; Analysis; Features

First?author’s addressThe Hospital Management Institute,the Ministry of Health,Beijing,100191,China

“大数据”的概念来源于互联网,其要求的数据分析已经远非目前的统计技术能够实现。有研究认为[1],在大数据时代到来之时,传统的社会学、统计学从业者面对半道杀出来的计算机背景的互联网数据挖掘者,就好比波兰骑兵面对德国坦克一样脆弱。

大数据时代的统计特点对传统的抽样分析提出挑战,对抽样分析结果的代表性及可靠性提出质疑。让我们简单剖析近期发表在《健康报》的案例,以便引起大家对大数据时代统计分析新特点的思考。

《健康报》2014年8月13日头版刊登了一篇题为《急性心梗治疗效果10年无改善》的文章[2]。我国权威的专家指出:2001年~2011年,我国急性心梗住院患者人数增长了4倍,但住院病死率及主要并发症发生率等并无明显下降。这个结论值得商榷。

首先,是抽样数据的量可能还不够大。因为文章中没有介绍样本的总体规模。根据调查研究的需要,确定样本量的总体规模,是整个抽样的前提。总体规模涵盖不全面,可导致抽样误差和结果的无效。本组案例随机抽取的18 631病例来自162家医院,分别抽取2001年、2006年、2011年3年的数据,平均每家医院3年仅抽取了115个案例。这里仅包括63家城市大医院。一般情况下,大医院每年收治的急性心梗病人均在数百例乃至几千例。因此,我们认为抽取的样本量太少,不符合统计学要求。因此,由于样本量不足,可能存在抽样误差。

其次,把63家城市大医院和99家县级医院的数据放在一起统计也显得不够合理。我们做过调查,我国二级医院在技术与规模方面差距非常大。较大的二级医院床位可达1 000余张,较小的二级医院床位仅在一两百张,且不具备开展救治急性心梗的条件。许多省市的医政部门明确规定二级县医院不准开展急性心梗的再灌注治疗与冠脉支架成型手术治疗。因此,把这样两组样本放在一起笼统的下结论,方法不当且显得不够合理。

2013年,受原卫生部医管司的委托,卫生部医院管理研究所与北京大学医学部合作,调查了43家大型综合医院的相关数据。43家医院3年急性心梗的全部病例为54 271例。急性心梗全样本分析的结果是住院死亡率呈逐年下降趋势,2010年6.46%,2011年5.96%,2012年5.33%。2011年与2012年的结果略低于美国2013年公布的急性心梗平均死亡率6.03%的水平。且我国PCI的住院死亡率也是呈逐年下降的趋势,许多大型综合医院的死亡率都低于美国1.75%的平均水平。

从上述结果可以看出,急性心梗死亡率是逐年下降的,救治的质量是缓慢提升的。这与救治质量的持续改进密切相关。近年来,在急性心梗救治方面出台了一系列的制度和规范。比如建立CCU、急诊的绿色通道,实施PCI技术,制定急性心梗新的救治规范,开展急性心梗的单病种质量评价等,这些都对成功救治起到了积极作用。

急性心梗是威胁老百姓生命健康的常见、多发重大疾病,是县级医院每天都要面对的救治任务,县医院又是基层医疗网的龙头。我国大型综合医院如北京协和医院、中国医学科学院阜外心血管医院等都为基层医院开展急性心梗的救治做了大量的帮扶工作。由于该病的突发性与急、危、重等特点,对于偏远的、交通不便的县医院应从政策上、设备设施、人才培养与技术帮扶上给予更大的支持,使急性心梗的救治技术能更普遍的开展,使更多的病人得到有效治疗。

大数据时代统计分析应转变思路,统计方法应与时俱进。在计算机技术飞速发展的今天,我们如何使用已经储备的大量资料进行全样本分析,应该是大数据时代统计分析的新特征。

目前,我国医院HIS系统建设在逐渐完善,各医院的HIS系统储存了大量的数据,就像一个大的数据仓库。做好数据的挖掘与利用,是当前研究工作的重要任务。2012年3月29日,美国奥巴马政府推出“大数据研究与开发计划”,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”。

美国福克斯新闻网1月8日《中国堕胎率上升,年轻女性成为目标人群》一文报道:政府统计,2008年有920万例堕胎手术,而2007年是760万例。目前高达1 300万。这一数字是整体数据,而不是抽样数据。

随着大数据在医疗与生命科学研究过程中的广泛应用,其数量和种类也在增大。比如,一个CT图像含有大约150MB的数据,而一个基因组序列文件大小约为750MB,一个标准的病理图则大得多,接近5 GB。

但是,这一切随着医院信息化的发展,今后都不会成为问题。在医院信息化1.0时代,IT系统都是围绕应用构建的,一个业务系统通常要配置一套独立的硬件和软件,因此形成了大量信息孤岛。医院信息化1.0时代,为PACS、RIS和HIS等业务系统提供数据支撑是医院信息化工作的核心。

进入医院信息化2.0时代,医院信息化的建设重点逐渐转移到电子病例的建立和普及上,而构建电子病例系统的前提是实现RIS、PACS及HIS等系统的无缝链接和信息共享,同时实现一体化的访问和控制。

医院信息化3.0的目标是构建完善的区域医疗体系,这在很大程度上还要依赖云计算技术。医院信息化的发展与计算方法的进步,为科学改进信息统计提供良好的平台。

2010年,国家公布的“十二五”规划中指出要重点建设国家级、省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等,也就是推进医疗信息化的“3521”工程。

在大数据时代,海量数据和良好的机器计算能力,为人们提供了新的视野,利用数据间的相互联系能够解决日常很多需要。传统的数据分析技术已很难满足人们对数据蕴涵知识的需求。还应该看到,在一个数据和信息量“爆炸”的知识经济时代即大数据时代,超大型数据库已遍及社会与生命科学、医学等诸多领域。因此有人提出,今后社会的竞争不是劳动生产率的竞争,而是知识生产率的竞争。数据是信息的基础,是知识的源泉,能够创造极大的价值。因此,未来基于知识的竞争将集中表现于数据竞争,而未来的数据竞争又将是大数据的竞争,大数据的收集、整理、分析和发布能力将成为关键之所在。

大数据分析的经济价值,已经开始撼动社会的方方面面。同时,大数据时代也向包括统计在内的传统领域提出了挑战,医院管理者、临床专家需要做好充足的准备,以迎接大数据时代所带来的变化与挑战。 

教育期刊网 http://www.jyqkw.com
参考文献

[1]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9.

[2]谭嘉,王丹.急性心梗治疗效果10年无改善[N].健康报,2014-08-13(1).

[3]姜奇平.大教据时代到来[J].互联网周刊,20l2(11):18-20.

[4]涂子沛.大数据:正在到来的数据革命[M].南宁:广西师范大学出版社,2012.

[5]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[6]郑京平,王全众.官方统计应如何面对Big Data的挑战[J].统计研究,2012(12):3-7.

通信作者:

王吉善:卫生部医院管理研究所医院管理咨询中心副主任

E-mail:wangjishan@vip.sina.com

收稿日期:2014-08-29

修回日期:2014-10-02

责任编辑:刘兰辉