《智慧医疗大数据解决方案.docx》由会员分享,可在线阅读,更多相关《智慧医疗大数据解决方案.docx(66页珍藏版)》请在悟道方案上搜索。
1、医疗大数据 1 医疗大数据解决方案 与信息系统的耦合度为零的数据才是合格的大数据 全国 97.8 万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系数据库系统不适合处理大数据。发明专利技术(发明申请号 201310495041.8)医学信息的结构化存贮方法非常适合处理医疗大数据。 医疗大数据 2 目 录 医疗大数据解决方案 . 1 第 1章 概要 . 4 1.1 名词定义 . 5 第 2章
2、 医疗大数据面临的挑战 . 7 2.1 医疗大数据与医院信息系统之间的具有本质的差异 . 7 2.1.1 小问题放大万倍就会大的吓人 . 9 2.2 医疗大数据面临八大难题 . 10 2.3 国家大数据标准工程堪比“两弹一星” . 14 2.4 医疗行业的信息系统顶层设计为何难产 . 15 2.5 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 . 16 2.5.1 我国医疗行业每年产生多少数据 . 16 2.5.2 挖掘关系数据库系统所产生的医疗数据非常困难 . 1
3、7 2.5.3 仅患者与数据的对应关系就是一个大问题 . 18 2.6 关系数据库理论的致命伤 . 19 2.6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据 . 19 2.6.2 关系数据库系统是一种完全封闭的系统:外来数据无法入住 . 22 2.6.3 关系数据库中的数据与数据系统密不可分 . 22 2.6.4 关系数据库中的数据与数据结构密不可分 . 23 2.6.5 关系数据库中的数据与应用程序密不可分 . 23 2.6.6 关系数据库中的数据一旦脱离相应的系统就成了无意义的数据 . 24
4、2.6.7 关系数据库无法实现病历信 息的结构化存贮 . 24 2.6.8 关系数据库中的数据都是“方言”,大数据需要的是“普通话” . 24 2.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表 . 25 2.8 大数据之梦十年后成真 . 26 2.8.1 信息化社会由概念到比较成熟用了 30 多年时间 . 27 2.8.2 千年虫问题的启示 . 27 2.8.3 大数据工程远比千年虫问题复杂 . 28 2.8.4 五年之内( 2020 年前)医疗大数据只是纸上谈兵 . 29 2.9 必须开发新
5、型的软件工具才能对医疗大数据进行高效挖掘 . 29 第 3章 发明专利:医学信息的结构化存贮方法 . 30 3.1 在了解医学信息的结构化存贮方法时的注意事项 . 31 3.2 医学信息的结构化存贮方法 . 32 3.3 数据的完整性是大数据的根本 . 38 3.3.1 大数据的策略:以适 当的数据冗余而使数据易识别 . 38 3.3.2 一个事物的数据 . 40 3.3.3 事物分类 . 40 3.3.4 关系数据库的缺陷:关系 . 42 3.3.5 数据的可识别性 &nb
6、sp;. 46 3.3.6 数据的多样性 . 48 3.3.7 元数据及国际元数据标准非常重要 . 48 3.3.8 大数据的关键:让数据自己说话 . 49 3.3.9 大数据的策略:用数据代替程序 . 51 3.4 与信息系统的耦合度为零的数据才是合格的大数据 . 52 3.5 医学信息的结构化存贮方法与关系数据库的对比 . 55 3.6 应用医学信息的结构化存贮方法的注意事项 . 55 3.7 超大表化问题:分为多张表 . 56 3.8 关系数据库中的二维表是数据不具独立性的一个根本原因 &nb
7、sp;. 56 3.9 “万能数据结构表”存放病历信息的例子 . 56 医疗大数据 3 3.10 医学信息的结构化存贮方法实现互联互通非常简单 . 58 3.11 结构化录入病历信息的例子:症状的结构化 . 58 第 4章 独立数据库在医疗大数据方面的优势 . 61 4.1 大数据中最重要的就是查询 . 61 4.2 超大表问题 . 61 4.2.1 自动调整表的长度 . 62 4.2.2 自动查询多张表 . 62 4.3 用独立数据库实现国家医疗大数据的存贮处理  
8、;. 63 4.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表 . 63 4.3.2 疾病、症状的相关数据 . 65 医疗大数据 4 第 1章 概要 关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代,人们发现,对全国 97.8 万家医疗机构所产生的医疗数据进行挖掘非常困难,当前的大多数医疗信息系统都是用关系数据库系统而设计的。 用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严重,根本原因在于“异构数据”
9、。 医学信息的结构化存贮方法中的“万能数据结构表”可以存贮各种各样的数据,也可说用医学信息的结构化存贮方法所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关系数据库理论先天不足,不可能解决“异构数据”问题。 医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称作小数据)。医疗大数据所要处理的数据是全国 97.8 万家医疗机构所拥有的数十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中, 这些系统由不同的开发商所开发,各系统的数据结构各不相同。 每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一
10、家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。 小数据的特点是数据的类型和数据都是有限的,在处理数据前能事先确定数据的类型。而大数据的数据特点是 “多样性 (Variety)”,在处理数据时很难先事先确定数据的类型,甚至不能确定数据的类型。目前关系数据库在数据处理中占据 统治地位,而关系数据库在处理数据时事先要确定数据的类型,因此,在处理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越的障碍。  
11、;医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只是处于概念阶段。大数据梦想将在 10 年后梦想成真, 5 年之内,难有突破性进展。 国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大数医疗大数据 5 据的实际需求,需要对现有的信 息系统进行彻底的改造才能适应大数据时代的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的! 关键词:数据与系统的耦合度、万能数据结构表、独立数据库、医疗大数据、数据的独立性、数据的完整性、数据的可识别性、事物分
12、类。 联系人: 樊梦真 136 6086 7965 QQ: 269779216 1.1 名词定义 数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。大数据 的数据来源于成千上万家单位的系统,因此,大数居中的数据应该是与系统的耦合度为零的数据,否则就需要很多的应用程度来解读数据,这会增加数据处理的难度、成本。 万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同一张表中存贮各
13、种各样的数据。 独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。 数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存贮方法”所提出的概 念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。 数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结医疗大数据
14、6 构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据的含义。 数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区 分出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名现象,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据时代,需要通过数据的独立性、数据的完整性而确保每一个数据都是可识别的。 在医疗大数
15、据中,各个医疗数据分别由各家医疗机构所产生、拥有。 事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。大数据时代以前的信息 系统的最终用户是通过应用程序而看到各种数据,最终用户并不直接与数据库中的数据打交道,数据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一个数据库是由哪家机构所产生,数据库中各表中所存贮的数据是什么等等都是非常重要的信息,只有搞清楚这些信息,才能正常解读各数据的真实含义。在“万能数据结构表”中,“信息系统的名称、数据库的名称、表名”是以“事物分类”的形式存贮在表中,
16、其目的是让数据具体独立性、完整性,以此确保各数据在大数据中具有可识别性。 医疗大数据 7 第 2章 医疗大数据面临的挑战 本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内( 2020 年前)大数据难以取得根本性突破,大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据,要高效处理大数据必须开发新的软件工具。 目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系数
17、据库中的数据的一大特点(或者说一大问题)就是“数据严重依赖于数据库系统及应用程序”,当关系数据库系统中的数据脱离了相应的数据库系统及应用程序后,这些数据基本上就成了难以阅读的无用数据。 2.1 医疗大数据与医院信息系统之间的具有本质的差异 如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心,这些数据的数据量一定会非常庞大,这些数据能不能称为国家医疗大数据? 按维基百科对大数据的定义:“大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理的数据。”这些数据可以称为国家医疗大数据。 维基百科的定义也明确地说明了把全国
18、各家医院全部集中起来的“数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理”。为什么不能处理呢? 例如,患者就医时,医生非常关心患者的病史。医生能否从国家医疗大数据中心获得患者在全国任意一家医院就医时的所有病历呢?假设全国各家医院的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心,而且医生具有获得这些数据的权限。 截至 2014 年 3 月底,全国医疗卫生机构数达 97.8 万个,其中:医院 2.5 万个,基层医疗卫生机构 91.8 万个,专业公共卫生机构 3.2 万个,其他机构 0.3医疗大数据 8 万个。 全国按 2
19、.5 万家医院计算, 一家医院按 4 个信息系统计算,全国共有 10 万个医院信息系统,这些信息系统所产生的数据存贮在数千万张表中。 医疗大数据应该说是永久有用的,可用来研究人类疾病的历史变化情况。因此,国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总和,甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的医 院信息系统的数据量的数万倍、数十万倍以上。 医生要想获得患者以往的病史数据,就必须从数据千万张表中查询患者的病史数据。了解关系数据库理论者都知道,如果说仅有表中的数据,没有相应的软件工具,那么,从数千万张表中查询数据,即使最优秀的程序员,
20、在目前的技术条件下,一周的时间内肯定查不出来患者的所有病史数据。因为程序员在查询数据前,首先要搞清楚如下问题: 1、 这些数据分别是哪家医院所产生的? 2、 这些数据分别是什么样的数据库系统产生的? 3、 这些数据分别存贮在哪些表中? 4、 各张表的结构是什么? 5、 表中会含有大量的代码,各个代码的含 义是什么? 6、 同一数据库中会有多张表,这些表之间的关系是什么? 7、 各张表中所存贮的是什么数据?数据的类型是什么? 国家医疗大数据文件中含有数千万张表,一张表详细情况说明基本上要用一页复印的信
21、息量来描述,共需数千万页复印纸才能描述清楚全部表的基本情况。 面对全国 97.8 万家医疗机构, 2 万多家有一定规模的医院,数万个医院信息系统,数千万张表,程序员在一周的时间内肯定搞不清楚上述问题。 从理论上而言,只要有数据,程序员可以查询到任何需要信息,然而由于国家医疗大数据的数据量太大,数据关系太复杂,数据结构太多、数据类型太多、不标准的数据太多,结果是太难太难。 处理小数据时并未感到关系数据库有什么不足之处,在大数据时代人们已认识到关系数据库系统不适合处理大数据。 医疗大数据 9 2.1.1 小问题放大万倍就会大的吓人 &nb
22、sp;国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。 目前 不是没有大数据,而是有很多大数据,然而人们不能高效地对这些数据进行处理。 到目前为止,还没有成功处理上万家医疗机构所产生的医疗大数据的成功案例。 大数据比小数据大多少倍?目前没有明确的定义,应该说真正的大数据要比小数据大一万倍以上,最少也应大一百倍以上。 大数据的大表现在:一是数据量大(是小数据“万倍以上”),二是数据类型多(是小数据“万
23、倍以上”),三是所涉及到的单位多(是小数据“万倍以上”),四是所涉及到的用户多种多样(是小数据“万倍以上”),五是对数据的需求多种多样而且不确定(是小数据“万倍以上”)。 在处理大数据时,会有很多的“万倍以上”的问题。 3 岁小朋友都可以数清楚自已家里有几口人,然而全国有多少人?由于人数十分庞大,全国人口普查就成了一项十分艰巨的大工程。自有人类以来,还无人能够数百之百准确地数清楚全球在某段时间内的人数。大家都认为当今的计算机技术已非常先进,然而时至今日,全球、全国的人口普查都做不到百分之百准确。我国历次人口普查都要花费大量的人力、物力。 宇宙之中有多少个星球
24、体?谁也数不清,因为整个宇宙实在是太大了,宇宙中的星球数量实在是太多了,谁也数不清,永远也数不清。 事物的数量大到一定程度 后一项非常简单的工作就会变成一项非常艰巨的大工程。 小数据所处理的数据犹如小朋友数家里的人数,大数据所处理的数据犹如全国人口普查。 大数据的特点:小数据中的小问题一旦放大万倍就会大的吓人!在大数据处理中,会遇到数量众多的小问题。 当前的绝大多数信息系统都是用关系数据库系统而建立的。在设计数据库系医疗大数据 10 统时,设计人员习惯于用代码来表示各种数据,例如 一些设计人员人用数字“ 0”来代表女性、用“ 1” 代
25、表男性),有的用“ M”来代表男性、“ F”来代表女性。全国各行各业拥有数千万个信息系统,其中的数千万张表中拥有人的性别这种字段。在当前的情况下,人们是用数据抽取的方法来而使性别这种字段中的数据全部转换为统一的、标准的数据,例如统一为“男”、“女”。要把全国数千万张表中的性别数据全部转换为统一的数据,就是一项非常艰巨的系统工程。 要真正建立起国家医疗大数据,要解决很多个数量十分庞大的小问题。 大数据一般比小数据大数万倍、数十万倍,小数据中的小问题一旦放大数万倍、数十万倍就会大的吓人! 在小数据时代,人们所设计的信息系统只是用来处理某个机构、某个部门内部的某个
26、局部问题进行统计、分析,一个信息系统中只有几张表、几十张表。 在大数据时代 ,人们更关注全国,甚至全球范围内的对所有事物进行统计、分析,涉及到数百万、数千万个信息系统、数亿张表。 小数据是为机构内部的人员所使用,是从机构的角度看问题,而大数据而是从全国,甚至全球来考虑问题。 对医疗行业而言,全国拥有近 97.8 万家医疗机构,数百万从业人员,为全国 13 亿人服务。 目前商业智能所处理的还只是一家企业内部的数据,人们已感到对企业内部的数十个信息系统中的数据进行处理已非常困难,而大数据所要处理的是整个行业的数据,比商业智能复杂数万倍。
27、 大数据 =价值大 =困难大 =问题大 =代价大 2.2 医疗大数据面临八大难题 当前国内的各家医院的各种信息系统都是为了满足自己的需求而开发的,可以比较好地满足各家医院自己的各种需求,并发挥出了重要的作用。然而,当人们从国家医疗大数据的角度来考虑问题时,就会发现要从全国的所有医疗机构的所有信息系统中挖掘出有价值的信息实在是大难了!主要有下述八大难题。 1、 各自为政:各家医疗机构各自为政,都想要别人的的数据,都不希望自己的数据共享给他人。到目前为止,医疗数据都存贮在各家医疗机构内部,从各医疗大数据 11 家医疗机构获得数据非常难。
28、2、 数据不标准:医疗行业还未建立全国统一的、标准化、规范的 数据,各家医院的医疗数据各不相同。数据不标准问题是影响大数据处理的一个重大问题,在大数据时代,各行各业的数据标准化工作是大数据的一项非常重要的基础工作,这项基础工作搞不好,大数据挖掘工作不可能搞好。医疗行业的数据标准化工作也是一项工程量巨大的系统工程,需要大量的医务人员共同参与才能完成。国内还未做好这项基础工作。数据不标准、不规范,会严重影响数据挖掘的结果。【数据不一致可以有多种情况,如数据类型不一致,随意缩写造成的不一致,计量单位不一致等。当从多个不同的数据源整合数据时,由于定义的不同,更容易产生数据不一 致问题。在不同的数据源中
29、,相同类型的信息可能表现为不同的格式。例如,电话号码通常定义为字符型数据,但在有些数据源中可能将定义数值型数据,因此应将其标准化。典型的例子是字段“性别”,一些人用数字“ 0” 、“ 1” 、“ 2” 来表示“不清”、“男”、“女”。而在其它数据库中,可能直接用“不清”、“男”、“女”来描述。另一种情况是字段值在不同的数据源中不一致,如“出生地”可能分别使用“上海”、“沪”、“上海市”、“沪市”、“ SHANGHAI” 、“ SH” 等表示上海市出生的人。解决这一问题首先应该进行标准化,然后根据标准逐步消除数据不一致的问题。】 3、 业务及业务流程不标准:要对全国的某个行业的大数据
30、进行分析统一,行业内的业务及业务流程的标准化工作也是一项非常重要的工作,否则,各个机构的数据也就会百花齐放、各不相同,不利于分析统计。 4、 数据多样性 (Variety)【 数据结构不标准、不统一】:全国有 97.8 万家医疗机构,这些机构的全部信息系统有数十万个,这些系统由不同的开发商所开发,各系统的数据结构不尽相同。【每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标 准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,更别说整个医疗行业了。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。】 5、 数据与数据库系统、应用系
31、统密切不可分:关系数据库系统中的每一个数据都要先定义数据结构才能入住数据库。信息系统的最终用户所看到的数据都需要应用程序的解读,最终用户看不懂关系数据库中的数据。 6、 不能实现医学信息的结构化存贮:医学信息非常复杂,医务人员习惯于医疗大数据 12 用自然语言编写各种医学档案,例如医生都是用自然语言编写病历。然而,计算机很笨,不能理解自然语言,因 此只有把医学信息结构化之后进行存贮,才能用计算机进行处理。而当前的众多医学信息都未能很好地进行结构化存贮。 7、 信息孤岛:各家医院的各个信息系统不能实现全国互联互通。 8、 老系统升级改造难题:当前
32、的信息系统都是小数据系统,不适应大数据时代的需求,然而要对现有的信息系统进行全面改造也是非常困难的,其代价也是非常高昂的。【为什么要升级改造?因为当前的各家医院的信息系统所产生的数据各不相同,数据不标准、不规范。要对大数据进行处理,必须确保全国各家医疗机构的信息系统所产生的数据是统一的、标准的、规范的医学标准数据。只有这样 ,才能高效处理大数据。 】 从理论上而言,医疗大数据挖掘很简单,只要懂关系数据库,基本上就能对医疗大数据进行挖掘。然而,要想对全国近百万个医疗机构、数十万个信息系统的全部数据进行高效地挖掘,所面临的挑战是非常严重的。 如何解决八大难题 ? 1、 各自
33、为政:这个问题必须国家卫生和计划生育委员会以行政命令的方式来解决,强制要求各医疗单位实时地把各种医疗信息上传到国家医疗大数据中心。若没有强制的行政命令,不可能建立起合格的国家医疗大数据。 2、 数据不标准难题:此难题涉及到的数据量太大、工程量太大。国家卫计委及很多人士虽说早就注意到此问题的存在,然而直到目前还未从根本上解决医疗行业的数据标准化问题。此问题不从根本上解决,那么医疗大数据的挖掘就等于说大话。医疗行业数据标准化工作是大数据挖掘的基础工作。此问题应该由国家卫计委组织业内外力量来解决,解决此问题需要 3 至 5 年的时间。有了国家医疗大数据标准之后,还需要用标准的医疗数据去代
34、替现有的不标准的医疗数据,而此项工作的工作量也是非常巨大的。标准化工作是不赚钱的基础性工作,商业机构没有从事这项工作的动力,应 该由国家卫计委来解决。 3、 业务、业务流程不标准:目前全国各医疗机构的业务及业务流程并不标准,因此,各医疗机构所产生的数据也各不一样。要建立国家医疗大数据,就必医疗大数据 13 须道先对全国医疗机构的业务流程进行标准化处理,这也是一项工程量巨大的基础性系统工程。这项工作也应该由国家卫计委来解决。此项工作最快需要三至五年的时间才能完成。 只有解决了上述三项基础性问题,才能够建立起国家医疗大数据这个大厦的坚实地基,否则医疗大数据只能
35、是空中楼阁。由于上述三个因素牵涉到全国各个医疗机构的方方面面,非常复杂,十年之内很难看到真正的国家医 疗大数据的曙光。 下述 4 个问题属于技术问题,关系数据库理论解决不了这 4 个问题,可由发明专利技术“医学信息的结构化存贮方法”从技术上加以彻底解决: 4、 数据多样性 (Variety)【 数据结构不标准、不统一】:目前关系数据库占据统治地位,绝大多数信息系统都是用关系数据库而建立的。医院的各种信息系统中,多数也是用关系数据库系统而建立。例如,目前国内医疗行业的 HIS 系统是由多个开发商所开发,各家开发商所用的数据库系统不一样,所用的数据结构结构及数据类型也不一样
36、。因此,如果要对全国各家医疗机构的 HIS 系统中的数据进行分 析,那么首先就要把各种数据全部转换为同一的数据结构,然后才能对数据进行分析统计。然而要对全国近百万个医疗机构的数十万个、数百万个信息系统中的数据进行转换,也是一项工程量巨大的系统工程。另一外很重要的问题是,所有这些信息系统中的数据要转换为哪一种统一的、标准的数据结构,也是需要国家卫计委制定相应的标准、规范。 5、 数据与数据库系统、应用系统密不可分。 6、 不能实现医学信息的结构化存贮:医学信息非常复杂,用关系数据库不能实现病历信息的结构化存贮。有人用 XML 实现病历信息的结构化存贮,然而XML 只适合处于少量数据,不适合 对全国的病历信息的处理。 7、 信息孤岛。 8、 信息系统改造: 现有的医疗信息系统就犹如广州的城中村,广州的城中村虽有一定的作用,然而城中村与广州这样的国际化大都市非常不协调。改造广州城中村的最佳方案就是推倒重建,局部的修补是没用的。然而医疗大数据 14 要全部推倒重建,所花费的资金是非常巨大的。 2.3 国家大数据标准