基于云计算的医疗大数据挖掘平台

dszhao

贡献于2017-04-05

字数:0 关键词: 分布式/云计算/大数据

医堂信皇堂盘查至Q!墨笙蓥塑鲞墓墨翘!Q堕垦丛丛Q!丛!Q!坠!!丛堕垦丛鲤鱼至Q!墨:塑!:塑:丛Q:墨基于云计算的医疗大数据挖掘平台高汉松肖凌许德玮桑梓勤(武汉邮电科学研究院武汉430074)[摘要]介绍大数据时代医疗行业数据挖掘面临的挑战,结合云计算提出一种基于Hado叩生态环境搭建的医疗云数据挖掘平台架构,详细阐述其各层功能,包括基础层、平台层、功能层以及业务层,以期为医疗行业的大数据分析及挖掘提供新思路。[关键词]云计算;大数据;数据挖掘MedicmDataMiningHatfb珊BasedonCloudC伽叩utingGA0月hn—so凡g,删0£ing,XUDe一训ei,sAⅣG而一q讯,阢l^nn胁seorc^hL旷胍拈&死^∞船,耽如n430D刀,吼iM[Abstract]Thepaperintmducesthechauengeofdataminingofmedicalindustryintheageofb远data,andpmposesaplatfb肌ofmedicaldataminingbasedonHad00pecosystemwiththetechnolog)rofcloudcomputing.Thedetajledfunctionlayerisalsodescribedinthepaperincludingfundamentallayer,pladb瑚layer,functionlayerandbusinesslayerforpmVidingnewideasforb培dataaJlalysisaJldmininginmedicalindustry.[Keywords]cloudcomputing;Bigdata;Datamining1引言1.1大数据随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展,其数量之大和种类之多令人难以置信。例如:一个CT图像含有大约150MB的数据,而一个基因组序列文件大小约为750MB,一个标准的病理图接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院或一个中等规模制药企业就可以生成和累积达数个TB甚至数个[修回日期]2013—04—25[作者简介]高汉松,工程师,发表论文3篇。[基金项目】科技部973项目“面向云计算的数据传输用新型光纤及云存储数据高可用性关键技术研究”(项目编号:2叭2CB724105)。PB级的结构化和非结构化数据。1.2云计算目前,云计算已经普及并成为IT行业的主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下催生出来的一种基础架构和商业模式。大数据的出现,正在引发全球范围内深刻的技术与商业变革。微软公司全球资深副总裁、亚太研发集团主席张亚勤博士认为“云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用”。云计算是大数据成长的驱动力,而另一方面,由于数据越来越多,就更加需要云计算去处理,所以二者是相辅相成的。随着医疗和健康数据的急剧扩容和几何级的增长,如何充分利用包括影像数据、病历数据、检验检查结果、诊疗费用等在内的各种数据,基于云计算技术,搭建合理先进的数据·7· 万方数据医堂焦塞堂盘查至Q!墨笙噩塑鲞篁墨翅!Q堕呈丛丛Q!丛!旦!垦丛!丛EQ罡丛笪!箜至Q堡:塑!:塑:丛Q:墨云服务平台,为广大患者、医务人员、科研人员及政府决策者提供服务和协助,必将成为未来信息化工作的重要方向。2医疗行业的大数据2.14V定义区域医疗信息系统中的医疗数据是典型的大数据。所谓的“大数据”并不只是数量上的“大”。简单套用一下大数据的4V(Volume,Velocity,Va.riety,Value)定义:(1)更大的容量(Volume):区域医疗数据通常是来自于拥有上百万人口和上百家医疗机构的区域,并且数据量持续增长。按照医疗行业的相关规定,一个患者的数据通常需要保留50年以上。(2)更快的生成速度(Velocity):医疗信息服务中可能包含大量在线或实时数据分析处理的需求。例如:临床决策支持中的诊断和用药建议、流行病分析报表生成、健康指标预警等。(3)更高的多样性(Variety):医疗数据通常会包含各种结构化数据表、非(半)结构化文本文档(xML和叙述文本)、医疗影像等多种多样的数据存储形式。(4)更多的价值(Value):医疗数据的价值不必多说,它不仅与我们个人生活息息相关,更可用于国家乃至全球的疾病防控、新药研发和顽疾攻克。2.2大数据的应用邬贺铨⋯认为,大数据的应用首当其冲的就是智慧医疗,具体可应用在临床诊断、远程监控、药品研发、防止医疗诈骗等方面。大数据的应用可产生很高的经济价值。按照世界经济论坛的说法,大数据是新财富,价值堪比石油。麦肯锡公司认为,大数据就是生产资料。一份报告显示,医疗大数据的分析会为美国产生3000亿美元的价值,减少8%的美国国家医疗保健的支出。近年来,在卫生部的领导下和国家财政支出的支持下,绝大多数的三甲医院和部分二级医院已经先后建立了先进的数字化信息系统和电子健康档案系统。但至今为止,大部分系统和数据仍然只限于内部使用。卫生部“十二.8.五”卫生信息化建设工程规划中,初步确定了我国卫生信息化建设路线图,简称“3521工程”,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理5项业务应用,建设健康档案和电子病历2个基础数据库和1个专用网络建设。由此可看出,今后的几年,随着云计算技术的成熟和实用化,大规模区域医疗信息系统和大型数据中心的建立将逐步展开。3数据挖掘技术3.1数据挖掘技术的发展3.1.1概念数据挖掘是指从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,能够发现隐含在大规模数据中的知识,从而指导决策。数据挖掘主要涉及特征化、区分、关联或相关分析、分类、聚类、演变分析等,在互联网应用、电子商务、电信、金融、医疗、交通、军事、科学研究等多领域的决策分析中被广泛应用。3.1.2发展阶段第1代是单独算法、单个系统、单个机器,采用的是向量数据。这些算法设计用于数据向量挖掘,其数据一般一次性调进内存进行处理,多用于商业系统,这种系统并不能适应大容量数据的操作,如果数据足够大,并且频繁变化,就需要利用数据库或者数据仓库技术进行管理。第2代是与数据库相结合,支持数据库和数据仓库,支持多个算法,其具有高性能的接口,具有较高的可扩展性。能够挖掘大数据集以及更复杂的数据集和高维数据,通过支持数据挖掘模式(DataMiningschema)和数据查询语言增加系统的灵活性。第3代是与预测模型相集成,支持web数据、半结构化的数据,使得由数据挖掘软件产生的模型的变化能够及时反映到语言模型系统中,由数据挖掘软件产生的语言模型能够自动地被操作型系统吸收,从而与操作型系统中的语言模型相联合提供决策支持的功能。它能够挖掘网络环境下(IntemeL/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成,是一种网络化计算。第4代是分布 万方数据式数据挖掘,基于网格计算的多种算法,分布在多个节点上的方式。第5代是目前基于云计算的分布式并行数据挖掘与服务的模式,同一个算法可以分布在多个节点上,多个算法之间是并行的,多个节点的计算资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFs或者HBASE,编程模式采用Map/reduce方式。处理框架以及相关关键技术,使得海量数据存储和分布式计算成为现实。基于云计算的海量数据挖掘技术,依赖于云计算平台提供的低成本分布式并行计算环境,可以为更多、更复杂的海量数据挖掘问题提供新的理论与支撑工具,为愈来愈多的企业分析海量数据提供解决方案,并大大减少其应用商务智能的成本。3_2基于云计算的分布式数据挖掘架构4医疗行业的大数据挖掘应用分布式计算/并行计算(尤其是低成本的计算)是解决海量数据挖掘任务的有效手段。云计算是并行计算、分布式计算和网格计算等计算机科学概念的商业实现,它可以将计算任务分布在大量互连的计算机上,使各种应用系统能够根据需要获取计算资源、存储资源和其他服务资源。按照中国电子学会云计算专家委员会的学术定义,云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)是动态、可伸缩、被虚拟化的,并以服务的方式提供。图l为基于云计算的分布数据挖掘架构,自下而上分为:云计算环境层(包括分布式文件系统、并行编程环境、分布式系统管理)、数据采集层(从各个数据源并行采集数据)、数据清洗层(包括数据约束检查、冗余处理、抽取转换及加载等)以及并行分析层(主要包括维度定义、关联规则定义、并行算法及报表中心等)。图1基于云计算的分布式数据挖掘平台架构云计算领域中的M印R“uce,Hadoop等高扩展性、高性能的并行计算编程模型、分布式海量数据4.1临床决策支持系统大数据分析技术将使临床决策支持系统更智能,这得益于对非结构化数据分析能力的日益加强。例如可以使用图像分析和识别技术,识别医疗影像数据,或者挖掘医疗文献数据建立医疗专家数据库,从而给医生提出诊疗建议。此外,临床决策支持系统还可以使医疗流程中大部分的工作流向护理人员和助理医生,使医生从耗时过长的简单咨询工作中解脱出来,从而提高诊疗效率。4.2医疗数据透明度根据医疗服务提供方设置的操作和绩效数据集,可以进行数据分析并创建可视化的流程图和仪表盘,促进信息透明。流程图的目标是识别和分析临床变异和医疗废物的来源,然后优化流程。仅仅发布成本、质量和绩效数据,即使没有与之相应的物质奖励,往往也可以促进绩效的提高,使医疗服务机构提供更好的服务,从而更有竞争力。公开发布医疗质量和绩效数据还可以帮助病人做出更明智的健康护理决定,这也将帮助医疗服务提供方提高总体绩效,从而更具竞争力。4.3医学图像挖掘医学图像(如CT、MIu、PET等)是利用人体内不同器官和组织对X射线、超声波、光线等的散射、透射、反射和吸收的不同特性而形成的。它为对人体骨骼、内脏器官疾病和损伤进行诊断、定位提供了有效的手段。医学领域中越来越多地使用图像作为疾病诊断的工具。·9·囟圈 万方数据医堂焦,叟堂丞麦至Q!墨箜墓丝鲞噩墨翘!Q堕呈丛丛Q!丛!Q!垡叁!丛堕幽堡至Q!墨:塑!:塑:丛Q:墨4.4生物信息学一DNA分析随着人类基因组计划的开展产生了巨量的基因组信息,区分DNA序列上的外显子和内含子成为基因工程中对基因进行识别和鉴定的关键环节之一。使用有效的数据挖掘方法从大量的生物数据中挖掘有价值的知识,提供决策支持。目前已有大量研究者努力对DNA数据分析进行定量研究,从已经存在的基因数据库中得到导致各种疾病的特定基因序列模式。一些DNA分析研究的成果已经得到许多疾病和残疾基因,以及新药物、新方法的发现‘2J。4.5公众健康大数据挖掘可以改善公众健康监控。公共卫生部门可以通过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。这将带来很多好处,包括医疗索赔支出减少、传染病感染率降低,卫生部门可以更快地检测出新的传染病和疫情等。通过提供准确和及时的公众健康咨询,大幅提高公众健康风险意识,同时也将降低传染病感染风险。5基于HadOop生态系统构建医疗云分析平台5.1Hadoop生态系统5.1.1发展过程2004年G009le公司最先提出MapReduce技术作为面向大数据分析和处理的并行计算模型,主要包含3个层面的内容:(1)分布式文件系统。(2)并行编程模型。(3)并行执行引擎。它首先为用户提供分布式的文件系统,使用户能方便地处理大规模数据;然后将所有的程序运算抽象为M印和Reduce两个基本操作,在Map阶段将问题分解为更小规模的问题,并在集群的不同节点上执行,在Reduce阶段将结果归并汇总。Ma.pReduce在设计之初,致力于通过大规模廉价服务器集群实现大数据的并行处理,优先考虑扩展性和系统可用性。2005年初DouglasCutting等人在开源搜索引擎系统Nutch上实现了1个MapReduce系统;2006年他们将MapReduce和NDFS(Nutch的分布·10·式文件系统)移出Nutch形成开源搜索项目Lu.cenel个子项目:Hadoop;2008年Hadoop成为A—pache的顶级项目,并逐渐成为1个进行分布式计算和海量数据处理的基础平台;在这个平台之上的一系列项目和技术(如HDFS、MapReduce、Pig、Hive、HBase、zooKeeper、Sqoop等)构建了1个Hadoop生态圈,见图2。MahfHltBigmpMRUnitWhirrAvmHCalalngPigHjvo^C—一N毛。》IRDBMEn》=叠々ol}暑舅∞o0室rManRPduc。星詈∞jo墨∞='*手HDFS‘sq00pFulmeHad00PCommon注:HDFS(H0doopDist曲utedFilesystem):Had分布式文件系统;RDBMs(RelationaIDatab∞eM”agementsystem):关系型数据库管理系统。图2Hadoop生态系统‘315.1.2Hadoop是一个框架,实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。HDFS和MapReduce只是打造Hadoop平台最基本的核心套件,在Apache基金会的网站中还有其他的相关开源套件,共同组成了1个Hado叩体系(Hado叩Ecosystem)。图2描述了Hado叩EcoSystem中的各层系统,其中HBase位于结构化存储层,Hado叩HDFs为HBase提供了高可靠性的底层存储支持,HadoopMapReduce为HBase提供了高性能的计算能力,ZooKeeper为HBase提供了稳定服务和failover机制。此外,P培和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变得非常简单。Sqoop、Flume则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase迁移变得非常方便。5.1.3HBase是基于Hado叩的面向列存储的数据库,是BigTable的开源实现,在FaceBook等大型公司中广泛应用。不同于传统的关系型数据库,HBase采用Key—Value形式的数据结构,每笔数据都有一个Key值对应到一个V山e值,再透过多维 万方数据度的对应关系来建立类似表格效果的数据结构,基于分散式储存方式,可以扩充到数千台服务器,以应付PB等级的数据处理。5.1.4H1ve同样是建立在HDFs上的l套数据仓库系统,可以将结构化的数据文件映射为l张数据库表,并提供完整的结构化查询语言(S嘶地伽谢QuelyLanguage,SQL)查询功能,可以将SQL语句转换为M印Reduce任务运行,例如可以使用Join、Groupby、O耐erby等,而这个语法称为HiveQL。不过,HiveQL和SQL并非完全相同,例如Hive就不支持StoreProcedu弛、瞄gger等功能。Hive会将使用者输入的HiveQL指令编译成Java程序,再来存取HDFs上的数据,所以,执行效率依指令复杂度和处理的数据量而异,可能有数秒,甚至是数分钟的延迟。和HB鹪e相比,Hive容易使用且弹性大,但执行速度较慢。5.1.5ApacheP1g是一个提供高层次编程语言的客户端开源M印Reduce应用程序,用于处理M印Reduce中的大数据集。编程语言本身被称为P:igⅢn。Pig和Hive在用于适当的使用案例时,相比低层次M印Reduce编程带来了巨大的效率提升,可以达到10倍或更高。5.1.6Hahout提供一些可扩展的机器学习领域经典算法的实现,包括集群、分类、推荐过滤、频繁子项挖掘。通过使用ApacheHad∞p库,Ma-hout可以有效地扩展到云中。Mahout实现的各类算法,包括分类算法、聚类算法、关联规则挖掘、回归、降缈维约简、进化算法、推荐/协同过滤、向量相似度计算、非M印Reduce算法、集合方法扩展。5.2基于Hadoop的医疗云分析平台(图3)业务层囤圆圈囹囹功能层回固固回平台层基础层[三[卫固匿圈睁穆穆移睁穆图3基于Hadoop生态环境的医疗云分析平台架构5.2.1基础层基于Hadoop集群实现医疗海量数据存储。针对医学影像资料中常见的CT、M砌的图像大小大多为512KB及快速获取图像资料并撰写诊断报告的PACS实时应用等应用需求,构建传统的集中存储和HD粥分布式文件系统相结合的S—DICOM文件存储架构HJ。对应电子病历的数据,存储时需采用基于语义网的临床文档框架(CliIlicalDoc眦ent觚llitecture,CDA)格式的XML文档来保存语义数据,可利用HBa∞中行键、列键、列族设计的灵活性,将多维医疗数据有效地组织在一起,实现传统数据仓库中的多维数据模型;通过对开源HB鹊e的改进,增加RMDBS的成熟索引技术,进一步提高HBa∞的查询性能"J。5.2.2平台层以M印Reduce并行计算引擎为核心,采用F1ume/洳p实现从多个数据源(主要是医疗机构的各个业务系统)抽取数据、清洗、转换格式并装载人基于HBase的数据存储模型;基于HadoopML/Mallout的搭建并行机器学习/数据挖掘(ML/DM)引擎,提供Bayes判别分析、聚类、决策树、关联度算法、推荐算法等多种算法库,为辅·11· 万方数据匿堂僮星堂銎鲞至Q!圣笙塞丝鲞墓墨翅!Q堕呈丛丛Q!丛!Q!坠!!丛堕垦丛堑!堡至Q!墨:塑!:塑:丛Q:墨助临床疾病诊断、行为分析等提供算法支撑。多维数据模型的接口将采用ApacheHive提供的类SQL查询的方式,为分析人员提供便捷的分析算法。5.2.3功能层基于基础层强大的数据存储能力和平台层以MapReduce并行计算引擎为核心的强大数据处理能力,提供了医疗海量数据的即时查询、统计分析、深度挖掘、机器学习等功能,为业务层提供功能支持。5.2.4业务层在功能层的支撑下提供在线实时查询、统计报表、患者行为分析、疾控预警、临床决策等应用。即时查询除传统的基于关键词的查询及基于分类目录的检索外,还提供基于本体的医疗搜索引擎,通过使用本体对用户的查询请求进行语义分析,能够提高搜索医疗信息的准确性旧1;鉴于电子病历的推广、生物医疗的大力发展尤其是对基因数据建模分析的需求日益增强,机器学习和数据挖掘对医疗的作用会越来越大,在并行机器学习/数据挖掘(ML/DM)引擎和并行计算引擎的支持下,海量医疗数据将在疾病的早期诊断和预防、疾控和最优治疗等方面得到更好的应用。6结语云计算是一种新型共享架构方式,基于云平台的医疗信息服务应用将更多的从现有架构去改进与演化,云计算的核心技术——虚拟技术、复制技术等使得以低成本达到高要求的服务级别协议成为可能,而医疗信息服务因为云计算也会出现全新的建设方向。ApacheHado叩已成为云计算中大数据行业发展背后的驱动力,各行各业都有其成功的应用案例,本文利用其提供的生态系统构建的医疗大数据平台,为医疗行业的大数据分析及挖掘提供了一种思路。参考文献1邬贺铨.邬贺铨谈智慧医疗:大数据价值堪比石油[EB/0L].[2013—04—18].hnp://www.cnohealtllcare.coIn/conference∥hvbd/2012—12一19/comem一415555.htrnl.2程建国.神经网络在基因序列预测中的应用研究[J].微计算机信息,2008,24(11):264—265.3邬启明.Hado叩介绍及实战[EB/0L].[2013—04—18]http://wellku.晡du.co∥view/53db8c19cc.7931b765cel5af.htrnl.4李彭军,陈光杰,郭文明.基于HDFs的区域医学影像分布式存储架构设计[J].南方医科大学学报,2011,(3):495—498.5周宝曜.健康云上的大数据分析[EB/OL].[2013—04—18].http://tech.ccidnet.com/an/32963/20120516/3861093—1.htIIll.6赵修文,刘伍颖,王挺.基于本体的医疗信息搜索技术[J].计算机工程与应用,2010,46(20):251—256.·12· 万方数据

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档