第一论文网免费提供大学生创业论文范文,大学生创业论文格式模板下载

大数据时代基于共享平台的信息服务工作研究

  • 投稿杨西
  • 更新时间2015-09-28
  • 阅读量837次
  • 评分4
  • 36
  • 0

陈 瑞

(湖北省科技信息研究院 湖北 武汉 430071)

摘 要:大数据背景下信息服务工作发生较大变化。湖北省科技信息共享服务平台顺应大数据挑战,利用云平台和元数据仓储技术,从硬件、软件层次上解决了大数据条件下的数据存储与检索问题。以湖北省科技信息共享服务平台的功能特色为角度,研究了以信息平台为基础进行的信息服务内容与模式创新,最后对信息平台今后的服务方向进行了探讨。

教育期刊网 http://www.jyqkw.com
关键词 :大数据;信息服务;信息共享平台;元数据仓储;云平台

中图分类号:G203 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.01.008

在大数据时代,信息服务工作的信息获取、存储、组织、分析等技术,用户获取和利用信息的方式方法都发生了较大变化,如何进行大数据处理,为用户提供更加专业的信息服务将成为挑战。

湖北省科技信息共享服务平台(以下简称信息平台)是支撑湖北省内科研机构和科技型中小企业创新创业的综合信息服务平台,是全省科技进步和科技创新必不可少的支撑条件。信息共享服务平台顺应大数据时代的挑战,利用元数据仓储技术,真正实现统一跨库检索,集产业追踪、区域聚焦、个性定制、代查代借、特色服务等多功能为一体,能够实现多层次、全方位地为用户提供信息服务。对促进全省科技创新体系建设,推动科技创新驱动战略实施具有十分重要的意义。

1 大数据环境下信息服务面临的问题

1.1 大数据存储管理问题

首先,随着网络环境下数据爆增,巨大存储空间需求给硬件存储带来压力。大数据时代信息资源的建设已经不止是简单的网页文本、照片或音频、视频文件。这就需要购置大量的存储设备去满足不断增长的需求,而传统模式的数据存储方式不仅扩展能力有限,而且扩展方法很麻烦。

其次,对非结构化数据存储管理效率低。例如各种类型的数据如办公文档、图像、音频、视频、电子邮件、超媒体等,数据处理操作不仅需要使用不同的文件处理软件,而且要在人工参与下才能完成。过多的人工操作会大大增加数据处理的时间,致使信息管理中心无法快速获得重要的信息,工作效率降低。

1.2 技术问题

面对指数级增长的数据目前PB级的存储系统中,检索数据无异于大海捞针。传统的数据检索是靠数据库文件系统命名的。这种检索方式在检索和查询影像文件时可能会遇到障碍,当影像文件超过了文件系统的厚度时就会出现问题。此外,各种非结构化的数据又增加了大数据的复杂性,即关于数据库表结构定义的不一致性和标准缺失也是数据库检索的另一大问题。

1.3 传统服务模式出现的问题

传统信息服务方式在大数据时代已经不能满足信息化发展的要求,信息管理中心不仅需要收集、存储大量的数据信息,还要在这些原始数据的基础上通过专业技术手段分析、挖掘数据,得到更为有效的信息资源,为信息资源用户的决策管理提供数据参考。而传统的数据管理方式适用于存量不大并且实时性要求不高的结构化数据,面对大容量的非结构化数据显得力不从心。

2 信息平台的功能特色

2.1 云平台布署解决大数据存储问题

信息平台为解决大数据带来的检索和存储问题,引入了云平台技术。从硬件方面来说,云平台采用了6台高性能服务器作为6个底层节点,一台普通服务器作为管理机,节点与节点之间部署了心中检测线,而节点与管理机之前则用千兆交换机连接。从软件方面来说,信息平台部署了一个云平台操作系统,包括管理系统、门户网站、运营系统各一套,3套存储管理平台。信息平台从硬件和软件功能上进行升级,保证了平台虚拟机的稳定运行,为信息平台元数据仓储提供了强有力的支持,促进信息平台检索、下载功能高效率进行。

2.2 实现统一跨库检索

信息平台集成当前国内最大的几家数据库厂商资源,包括万方数据、维普资讯、中国知网、国研网、NSTL、国家知识产权局等,同时还集成了湖北省科技信息研究院自建的特色数据库,文献类型包括科技期刊、学位论文、会议论文、专利、标准、国研报告、研究报告、法律法规、科技成果、年鉴、报纸、图书等,用户只需一次检索便可得到所有数据库的不同类型资源,而且具有去重功能,改变以往多个库检索、重复浏览的模式,节省大量宝贵时间与精力。

2.3 元数据仓储技术保证查全率

元数据在众多领域都有其具体的定义和应用,其中得到最广泛认可的概述是:关于数据的数据,即描述任意资源结构化的数据。信息平台利用元数据仓储技术,采用数据收割、数据整理、数据更新这一流程,利用先进的资源调度规则和资源调度配置,将最底层的元数据预先建立索引,进而将不同的异构数据库导入一个全新的数据库,实现各类资源的快速检索,大大提高检索速度与检索效率。信息平台利用元数据仓储技术,整合4.7亿条不重复的元数据,并且每年保持大规模增长,数据量超过任何一个单一的数据库厂商,大大保证了查全率,方便用户快速找到文献资源线索。

2.4 多渠道保证原文无障碍获取

信息平台获取原文的方法多样,包括直接下载、共建单位原文传递、云传递及代查代借。信息平台整合了国内几大主流数据库厂商的各类资源,基本保证了各类中文数据的原文下载,本着资源共建共享的原则,信息平台联合全省各大高校及科研单位参与共建共享,目前已有武汉大学图书馆、华中科技大学图书馆、中科院国家科学图书馆武汉分馆等19家单位参与,开通共建单位原文传递窗口,方便用户获取本馆没有的文献。同时,信息平台还有云传递功能,此为全国范围内的参与单位实现,从而更大幅度地保证原文获取效率。

在以上三种方式都无法获取原文时,系统也会引导用户采用代查代借功能获取,代查代借是信息平台的辅助功能,主要解决以下两类问题:一是在信息平台检索到文献题录,但是无法获取全文,二是知道文献相关信息,在信息平台中未检索到。用户只需在代查代借页面提交文献题名、作者、来源等信息即可,所提交的信息越详细,获取原文的机率就越大。提交请求后信息平台共建单位服务人员会在五个工作日以内将查询结果反馈到用户邮箱。

2.5 特色功能满足用户个性化需求

2.5.1 检索功能操作方便快捷

信息平台实现文献类型和检索字段同时可选的功能,而且文献类型可多选。其实这一功能在单一的数据库中实现并不难,然而在统一资源检索平台要实现此功能需要解决一些技术难题。笔者也比较其他省级科技信息平台,如广东、广西、四川、上海等省的科技文献共享服务平台均只实现文献类型单选。湖北省信息平台可以在多选文献类型的情况下选择所需字段,这样处理方便用户进行简单的计量分析,例如可以通过一键式检索分析某一机构或作者的文献产出情况,通过教育期刊网 http://www.jyqkw.com
关键词 检索分析各种文献类型的主题分布情况等,大大方便用户进行科研研究。

2.5.2 多维度服务导航功能

多维度服务导航为用户提供了强大的资源揭示功能,用户可借此功能进行简单的情报分析,如果没有此功能,用户检索到数据后需耗费大量的时间与精力下载、加工、整理数据,然后利用相关的数据分析工具来得到分析结果。同时,此功能又方便用户进行二次选择,快速找到有用的资源,例如可根据期刊刊种判断论文质量,对自己的研究会起到更大的作用。而其他类型资源检索结果展示可方便用户在不同的文献类型之间进行切换,无需回到首页重新检索。

2.5.3 检索结果排列方式多样

传统的检索结果排列方式为表格排列,这样方便用户需要阅读大量的文献题名、作者、机构、来源等信息时使用,通过对用户阅读习惯的研究发现许多用户比较喜欢如百度式的自然排列方式,因而目前一些专业数据库也改变以往的数据排列方式,选择自然排列方式。调查发现,不同类型的用户习惯的排列方式不一样,两类排列各自都有用户选择,甚至同一类用户在不同的检索目的下也会采用不同的排列方式进行阅读。信息平台为用户提供了较大的选择空间,检索结果可按列表和自然排列两种方式,用户可根据习惯或需要自行选择。列表方式方便用户阅读大量文献时使用,自然排列方式符合用户自然的阅读习惯。

2.5.4 本馆馆藏满足快速获取原文

信息平台采用元数据仓储技术,大大保证的平台的查全率,因而用户检索到的文献会存大许多不能直接下载的情况,此时可以通过共建单位传递、云传递或代查代借三种方式获取原文。然而通过用户调研发现,许多用户检索到文献时希望立刻能够获取原文。信息平台提供本馆馆藏功能,此功能将用户检索结果中可以直接下载的文献聚类,此聚类中所有文献均可直接下载,无需通过原文延迟获取,满足对获取原文具有较高时效性要求的用户的需求。

3 信息平台服务模式研究

信息平台保留了传统的信息服务内容,包括期刊论文、学位论文、会议论文、标准、专利等文献的原文下载、原文传递、代查代检服务,这是科技信息共享服务平台的基础支撑,必须要充分保证。在此基础上,信息平台也探索了新的信息服务内容,包括产业专题服务、区域特色服务、专业化服务。

3.1 产业专题服务

信息平台根据地方重点产业,追踪产业的最新研究热点,并分类整理入库,方便用户直观了解产业最新研究热点。通过对信息平台各类用户调查发现,越来越多的用户不仅仅满足于信息平台提供的简单检索、下载原文功能,为其提供专题服务是信息服务机构要努力的方向。目前信息平台已建立的产业专题是湖北省八大千亿产业,包括汽车、食品、机械、电子信息、钢铁、石化、纺织、建材。主要对各个产业的最新研究文献进行了收录,方便用户跟踪产业的研究方向。

3.2 区域协调化服务

为促进全省科技信息全面发展,省信息平台采用二级服务站模式进行推广服务,即提供全省17个地市州的二级服务站窗口,聚焦各地市州的区域动态,这样为全省科技信息共享打下良好基础。采用二级服务站模式进行服务是符合湖北省省情的,目前以武汉市为首,以宜昌、恩施、荆州为代表的地市州服务推广效果都比较显著,信息服务是一个循序渐进的过程,今后在服务推广上应该探讨更加合理、更加专业的服务推广模式,例如在二级服务站模式的基础之上,以高企、孵化器、大型企业、中小企业、科研机构、政府机关等多个角度,各有侧重地推广,使信息平台能够真正深入到省内各个企业的各个科研人员中去。

3.3 专业化服务

作为省级专业的信息服务平台,湖北省科技信息共享服务平台不仅提供基础性的科技文献信息,同时还提供专业化的定制服务。包括行业研究报告、定制报告、委托检索、科技查新及知识产权服务、科技决策咨询、科技评估等深度服务内容。如行业研究报告包括市场分析报告、技术研究报告、政策环境报告、综合分析报告等内容,满足企业、科研机构、政府部门的管理决策者、技术人员等各类情报需求。定制报告则根据企业用户提出的具体定制需求,利用专门工具,可为企业定制关于行业竞争对手、企业自身状况、特定技术领域、单项技术等的专题分析报告,专题推送。

3.4 个性化推荐服务

信息平台具有合理的后台管理系统,将用户分类明确,包括大型企业、中小企业、科研机构、政府部门等不同类用户。大型企业一般都具备自己的情报部门,因而信息平台可为大型企业提供战略研究、竞争情报、科技查新、科技评估与咨询、知识产权等方面的服务,从而为企业发展提供战略性决策指导。针对中小企业,信息平台不仅为其提供期刊、学位论文、会议论文、专利、标准、政策法规等传统类文献,而且为其提供行业信息,并为其量身打造了行业研究报告数据库,解决了中小企业因资金、人才、资源等所限而无法自己获取情报信息的困境。面向科研院所,信息平台可为其提供知识产权相关的信息服务、培训、咨询等内容。针对政府机关,信息平台可为其提供全局性、深层次、科学化,比较宏观的统计数据与研究报告,方便用户宏观把握其所关注的内容。

总之,针对不同用户提供个性化的服务,要基于用户分类、用户行为研究的基础之上,根据用户的行为轨迹分析其所关注的内容,定期为其推送信息服务内容。

4 信息平台服务发展方向

信息平台采用元数据仓储技术,实现统一跨库检索,具有多种个性化的功能,然而要适应新的服务模式还需要进一步完善。首先是个性化推荐实现智能化,目前的个性化推荐还基于人工分析用户行为轨迹,今后应该建立一种高级智能平台,基于少量数据挖掘技术,由系统智能完成对用户的个性化决策支持和信息服务。其次是实现移动终端随时随地获取文献,如今用户更倾向于使用移动终端学习与工作,开发信息平台移动终端是迫在眉睫的,然而如何开发简单适用、符合用户习惯、满足个性化推送、方便进行用户管理等也是下一步必须探讨的。第三,实现更加专业化的产业追踪功能,建立产业专题是一项任务艰巨的课题,目前信息平台已进行了初步的探索,今后还应深入完善产业专题内容,例如建立更多的产业专题库,根据地方特色打造不同区域的行业专题,为各个专题建立更加科学合理的子类目等。

教育期刊网 http://www.jyqkw.com
参考文献

1 陈甜远.大数据时代的高校信息管理中心对策[J].网络地带,2013(8)

2 陈豫等.大数据影响科技信息工作未来的大背景[N].中国航空报,2012 -12-18

3 覃凤兰.个性化服务高校图书馆服务的新举措[J].情报杂志,2005(7)

4 丁梅.大数据时代云平台与大容量存储——以湖北省科技信息共享服务平台部署为例[J].软件导刊,2014(5)

5 夏浩,李瑞雪.如何基于无数据仓储技术构建数字图书馆统一检索平台[J].科技创新导报,2014(14)

6 杨小凤.省级科技文献共享服务平台信息服务分析[J].现代情报,2014(7)

(责任编辑 晓 天)