2019中国医疗大数据研究报告.pptx
2019中国医疗大数据研究报告,2,前言Introduction医疗产业已经沉淀海量数据,且数据类型及数据量还将持续增加,但医疗数据在过去并未得到有效处理;另一方面,我国面临着慢 病发病率提升、临床决策失准及医疗资源配置不均衡、重复诊疗等问题。医疗大数据治理可以在“海量数据”与“医疗问题”之间架起一条通路。大数据与机器学习、深度学习等技术和循证医学、影像组 学等学科的结合,可以为健康管理、辅助诊疗等场景提供解决方案;打通底层数据,构建互联互通的数据平台,可以优化诊疗流程、提 升医疗行为的效率。数据互通可以优化各应用场景的体验,各应用场景产生的数据又可以进一步丰富数据由此形成一个价值闭环。从政策角度出发,医疗是关系国计民生的高监管行业,政策对于大数据赋能这一行业的态度尤为谨慎。从企业角度出发,与以往一 呼百应的“大数据+产业”不同,企业对于这一领域的动作显得有些保守,此时谈论“应用场景”似乎操之过急。本报告主要采用桌面研究和专家访谈的研究方法,深入分析中国医疗大数据顶层设计思路,并对医疗大数据治理的技术环节及未来 可能的主要应用场景进行了梳理,最后对医疗大数据未来的发展趋势做出了预判。,研究方法、内容概述及范围界定,3,Methodologies, Summarizes and Definition of Research本次研究主要采用了两大研究方法:案头研究(Desk Research)、专家深度访谈(Experts IDI)。首先,基于对医疗大 数据的观察和理解,通过案头研究的方法,一方面梳理了医疗大数据的概念、分类和技术环节,对医疗大数据相关国家政策进行分析 解读;另一方面总结并分析医疗大数据六大应用场景,并对每一应用场景的发展阶段及面临的机遇和挑战作出分析。在案头研究的基 础之上,通过专家深度访谈的研究方法,充分听取政策参与制定者、行业专家、意见领袖对医疗大数据的理解和认知,进一 步梳理大数据助力传统医疗产业的技术环节;并对医疗大数据未来的发展趋势和主要挑战做出分析判断。本报告所谈“医疗大数据”,包括医疗数据、移动医疗健康数据、基因数据。不涉及商业保险相关数据、前端供应链流通环节产生的 交易数据及流通数据、医疗行为中产生的语音数据。. 本报告所谈“技术环节”,包括与医疗大数据处理有关的主流的、关键的技术 环节,而非全部技术。,Desk Research,Experts IDI,整体理解阶段:明确“医疗大数据”核心概念及特性, 总结医疗大数据类别盘点医疗大数据国家相关政策及举措梳理医疗大数据治理关键技术环节总结医疗大数据六大应用场景,深入研究阶段:对政策参与制定者、行业专家、意见领袖进行深度访谈对医疗大数据的政策风向作出分析解读进一步梳理医疗大数据治理的技术环节 及应用场景总结医疗大数据未来的发展趋势和可能 会面临的挑战,主要研究发现,Key Findings国家政策7年演变历程:从“信息化”切入,以“大数据”落脚;从“治病”出发,以“治未病”为先;数据安全与数据共享两手抓;以监管性政策为主。医疗大数据主要有两大价值出口:数据互联互通、与新技术结合的产品。价值闭环的构建还需各环节夯实基础。医疗大数据正处于打通底层数据、探索商业模式的初步阶段。医疗大数据的分析要求响应速度、响应能力以及结果准确性,企业仍需提升技术能力。合规性是医疗大数据领域的重要问题:医疗大数据采集及管理、分析的任一环节都存在合规性问题,相关主体需要根据从事的业务领 域关注相应的合规义务。从投资端来说,国家资本具有引领作用,鼓励社会资本共同参与;从企业端来说,医疗大数据创业门槛较高、需符合渠道打通、数据 收集能力强、技术能力过硬、合规性四个要求。慢病管理、辅助诊疗及医学研究或成最先落地场景:“慢病管理”和“辅助诊疗(包括结构化电子病历、医学影像、智能问诊)”将 成为最先落地的应用场景;“电子病历”、“健康管理”、“疾病早筛”等名词在国家政策中出现频率有所提高,企业在这三个场景 内实现商业化的自由度也相对较高;医学研究在科研经费的支持下则是医疗大数据天然的落地场景;但各应用场景的商业模式仍需探 索。,目录C O N T E N T S,Part1. 医疗大数据概念界定,3.1医疗大数据企业图谱.3.2医疗大数据治理技术环节.3.3医疗大数据应用场景.,07,1.1医疗大数据概念及特性.1.2医疗大数据分类.08,Part2. 医疗大数据顶层设计.11Part3. 医疗大数据关键环节,232532,Part4. 未来趋势与挑战4.1未来趋势 . 444.2可能面临的挑战. 45附录中国卫生信息与健康医疗大数据学会现有专业委员会. 47,Par t1.医疗大数据概念界定Conception and Classification of Medical Big Data,6,医疗大数据概念及特性:在人们健康管理及医疗行为过程中产生 的,与健康医疗相关的数据;具有医疗大数据特性,时效性数据的创建速度快,更新频率高,许多数据的采样周期已从周、天升级 到分、秒,甚至是连续性记录。这对响应速度及处理速度提出更高要求。就诊、疾病进程等并非在某一时间点上发生的瞬时事件,在前、中、晚 期会呈现不同的特点。此外,疾病亦可能具备季节性特征。,冗余性医学数据每天都会大量产生,同一人在不同医疗机构就可能产生相同的信 息;整个医疗数据库会包含大量重复和无关紧要的信息。,隐私性数据隐私性是医疗大数据的重要特点。个体的患病情况、诊断结果、 基因数据等医疗健康数据的泄露会对个人产生负面影响,且涉及侵犯 公民权。集中的巨大量信息泄露意味着中国人群的基因信息可能被西方掌握, 可以用来提升生物武器的精准性,严重威胁国家安全。,不完整性医疗数据的搜集和处理过程经常相互脱节,这使得医疗 数据库难以对任何疾病信息全面反映。大量数据来源于 人工记录,导致数据记录的偏差和残缺,许多数据的表 达、记录本身也具有不确定性。,多态性数据来源多样,涵盖形式丰富。包括文本、医学影像等, 多类型的数据对数据处理能力提出了更高要求。,体量大医疗大数据体量巨大。一张CT图像含有数据量约为100MB,一个标准病理图接近5GB。一个行政省,由于市场站位及侧重点的不同,目前“医疗大数据”尚无明确定义。2018年9月,卫健委发布的国家健康医疗大数据标准、安全和 服务管理办法(试行)中,对“健康医疗大数据”的定义为:在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据。本报告认为“医疗大数据”的外延包括“健康数据”。因此,基于卫健委文件,本报告所描述的医疗大数据概念为:在人们健康管理 及医疗行为过程中产生的,与健康医疗相关的数据。:医疗大数据的特性,Part.1 医疗大数据概念界定,医疗大数据分类:基于数据发生场所,可将医疗大数据分为医疗数 据、移动医疗健康数据、基因数据,移动医疗健康数据,可穿戴设备量化数据互联网医疗平台数据(PC端、APP)医学研究与疾病监测,基因数据,基因测序结果基因检测结果,医疗大数据在形式上包括结构化数据、半结构化数据和非结构化数据。从空间位置看,包括院内数据及院外数据。从时间周期看, 医疗数据在线时间的要求较其他行业高。本篇报告基于数据发生场所,将医疗大数据分为三类:医疗数据、移动医疗健康数据、基因数据。再基于各数据的侧重点进行类别细分。医疗数据:病历,医学影像数据,随访记录,支付、医保信息,药物研发信息等;移动医疗健康数据:可穿戴设备量化数据,互联网医疗平台数据等;基因数据:基因测序结果、基因检测结果等;本报告不涉及医疗行为中产生的语音数据。:基于数据发生场所的医疗大数据分类,医疗数据病历医学影像数据随访记录 药品管理信息支付、医保信息,Part.1 医疗大数据概念界定,医药工业器械厂商,医院、第三方医疗机构,诊所,患者,支付方,药店,医药器械流通,9,医疗大数据基于7个主体的思考逻辑链,医药研发(包括基因测序),精准医疗(包括健康管理),交易数据,流通数据,诊疗流程优化基因检测,医保控费商保,辅助诊疗医学研究医院管理基因测序,注:浅灰色文字表示本报告不涉及该类数据,医疗大数据的7个主体为:医药工业器械厂商,医药器械流通,医院、第三方医疗机构,诊所,药店,患者,支付方。7个主体可串联 为医疗大数据的思考逻辑链。本报告不涉及思考逻辑链中前端供应链流通环节产生的交易数据及流通数据、商业保险相关数据。各主体所涉及的场景或数据如下图 所示:医疗大数据基于主体的思考逻辑链,Part.1 医疗大数据概念界定,Par t2.医疗大数据顶层设计The Top-level Design of Medical Big Data,10,发布医疗大数据相关政策:2013年-2019年4月共发布68项相关政策2016年发布相关政策最多,达35项,设置中国卫生信息与健康医疗大数据学会:2017年,“中国卫生信息统计学会”更名 为“中国卫生信息与健康医疗大数据学会”共有专业委员会56个,打造医疗大数据国家队:中国健康医疗大数据产业发展集团公司中国健康医疗大数据科技发展集团公司中国健康医疗大数据股份有限公司,布局“1+7+X”数据中心:1个国家中心、7个区域中心(东北、华 北、华东、华南、华中、西南、西北),X个应用和发展中心。2016年10月21日,确定第一批试点省份2017年12月12日,启动第二批试点,医疗大数据国家布局:发布相关政策,打造医疗大数据国家队,设置中国卫生信息与健康医疗大数据学会,布局“1+7+X”数据中心,Part.2 医疗大数据顶层设计,医疗大数据相关政策:发布集中在2016年,各省市积极跟进,广东 省响应最为积极,12,1,2,6,35,16,8,2,0,5,10,15,20,25,30,35,40,45,2013,2014,2015,2016,2017,2018,2019,Part.2 医疗大数据顶层设计,11111111,2222,4,5,9,36,全国性 广东省 北京市 贵州省 重庆市 上海市 河北省 安徽省 湖南省 四川省 河南省 江西省 甘肃省 青海省 辽宁省 山东省,2016年是医疗大数据政策集中爆发的一年,全年共发布了35项政策。从地方来看,广东省发布的相关政策最多。2016年4月,广东省出台广东省促进大数据发展行动计划(2016-2020年),明确提 出:加快建设医疗健康管理和服务大数据应用体系,探索健康医疗服务新模式,推进精准医疗。鼓励和规范有关企事业单位开展医疗 大数据新应用研究,构建综合健康服务应用体系基本实现全民健康信息综合管理平台与各地各区域健康信息平台的互联互通。2017年密集发布了关于促进和规划健康医疗大数据应用发展的实施意见、珠三角洲国家大数据综合实验区建设实施方案、广东省“十三五”深化医药卫生体制改革规划等政策。:2013-2019年4月我国医疗大数据政策发布数量:截至2019年4月我国医疗大数据政策发布省市分布情况,国家政策7年进程:从“信息化”切入,以“大数据”落脚;从“治 病”出发,以“治未病”为先;数据安全与数据共享两手抓,2013.9,国务院关于促进健康服务业发展的 若干意见,推进健康服务信息化。制定相关信息数据标准, 加强信息管理系统建设,充分利用现有信息和 网络设施,尽快实现医疗保障、医疗服务、健 康管理等信息的共享。推广远程医疗;探索发展便携式健康数据采集设备,人口健康信息管理办法(试行),2014.5,促进人口健康信息的互联互通和共享利用;及时更新信息,确保信息最新、连续、有效;加强数据监管,严格保护隐私 2015年卫生计生工作要点,推动信息化工程和金人工程,加快人口信息、,电子健康档案和电子病历数据库建设,推动 系统互联互通,促进数据整合和数据共享;,开,展远程医疗,全,国医,卫,服,体系规划纲,要,疗生务(2015202,0年),2015.1,2015.3,促进大数据发展行动纲要,2015.8,建成国家政府数据统一开放平台,率先在信用、 交通、医疗管等重要领域实现公共数据资源 合理适度向社会开放;构建电子健康档案、电子病历数据库。建设覆 盖公共卫生、医疗服务、医疗保障、药品供应、 计划生育和综合管理业务的医疗健康管理和服 务大数据应用体系;面向网络、安全生物组学、健康医疗等重点,2015.9,需求,探索建立数据科学驱动行业应用的模型加快推进医疗信息化建设;实现电子健康档案和电子病历的连续记录;提升远程医疗服务能力,国务院办公厅关于推进分级 诊疗制度建设的指导意见,Part.2 医疗大数据顶层设计,国务院卫健委,注:2018年3月,“卫计委”更名为“卫健委”,到2020年实现人口、健康档案、电子病,历三大数据库基本覆盖全国人口及信息动态更新;信息技术将推动医疗卫生服务模式和 管理模式的深刻转变,国家政策7年进程:从“信息化”切入,以“大数据”落脚;从“治 病”出发,以“治未病”为先;数据安全与数据共享两手抓,2016.3,2016.6,2016.12,2017.7,注:2018年3月,“卫计委”更名为“卫健委”,2019.1,国务院卫健委 发改委,各三级公立医院对照绩效考核指标体系形 成绩效考核大数据。根据绩效考核指标和自 评结果,医院调整完善内部绩效考核和薪酬 分配方案,实现外部绩效考核引导内部绩效,考核,推动医院科学管理2018.7,中华人民共和国国民经济和社会发展第十三个五年规划纲要,加快推进医疗信息化建设;实现电子健康档案和电子病历的连续记录;提升远程医疗服务能力国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见,将健康医疗大数据纳入到国家大数据战略布局建成国家医疗卫生信息分级开放应用平台;加快构建健康医疗大数据产业链,全面深化健康医疗大数据应用。加强健康医,疗数据安全保障和患者隐私保护;,促进三大数据库数据融合、动态交互、共享,“十三五”卫生与健康规划,“健康中国2030”规划纲要,研究制定健康医疗大数据确权、开放、流,通、交易和产权保护的法规,严格保护个 人隐私;,健全基于互联网、大数据的分级诊疗信息 系统,推动健康档案、电子病历、检验检 查结果共享,国家健康医疗大数据标准、安全和服务 管理办法(试行)加强健康医疗大数据的标准管理、安全管理 和服务管理:健康医疗大数据安全管理是指 在数据采集、存储、挖掘、应用、运营、传 输等多个环节中的安全和管理;明确健康医疗大数据的责任单位、责任细节: 各级各类医疗卫生机构和相关企事业单位是 健康医疗大数据安全和应用管理的责任单位;责任单位采集健康医疗大数据,应当严格执 行国家和行业相关标准和程序2018.7,关于进一步推进以电子病历为核心的 医疗机构信息化建设工作的通知,注重用互联网、大数据等提升监管效能;通过电子病历信息化建设,探索建立健全 智慧医院标准、管理规范和质量控制方式 方法。发挥大数据、互联网、云计算、区 块链等技术优势国务院办公厅关于加强三级公立医院绩效考核工作的意见,Part.2 医疗大数据顶层设计,打造医疗健康大数据“国家队”:三大集团,政府主导、市场运作、联合创新、共建共赢*,15,发起,参与,中国健康医疗大数据产业发展集团公司,中国健康医疗大数据科技发展集团公司,中国健康医疗大数据股份有限公司,名称,2017年4月起,国家卫计委先后牵头组织三大医疗健康大数据集团中国健康医疗大数据产业发展集团公司、中国健康医疗大 数据科技发展集团公司、中国健康医疗大数据股份有限公司。三大集团均以国有资本为主体,由国家健康医疗大数据安全管理委 员会(即“大数据办”)统一监管。三大集团的总体目标是:. 通过健康医疗大数据应用促进优质医疗资源下沉到基层群众,努力提高人民群众获得感;. 通过健 康医疗大数据支持三医联动、分级诊疗、异地结算和远程服务等,为深化医改注入新动力;. 通过健康医疗大数据应用发展, 创新健康服务新业态,发展健康科技产品,推进覆盖一二三产业的全健康产业链的发展,促进数字经济为国民经济增添新动能。:医疗大数据三大国家集团概况,*注:“政府主导、市场运作、联合创新、共建共赢”的说法出自中国健康医疗大数据产业发展有限公司合作意向书,Part.2 医疗大数据顶层设计,中国电子:医疗大数据带头队伍,构建数据融合平台,培育产业生态,参与制定标准、规范发起成立中国健康医疗大数据产业联盟,一个行政省可收集的医疗大数据中,结 构化数据量约数千G,非机构化数据量 以TB计,优 势,央企,地方数据规模巨大,构建数据生态闭环,国家重点工程建设,参与建设发改委医疗大数据工程实验室参与建设医疗大数据地方试点工程,构建以医疗大数据为核心的,包括数据 源、数据采集、存储、运营、技术、变 现、应用等多个维度的数据生态闭环,支付流,患者流,运营模型,财务模型,作为中国健康医疗大数据产业发展集团的发起方,中国电子为医疗大数据的战略部署起到带头作用(公司介绍:中电数据、 中电健康产业基金都是中国电子集团旗下公司。中电数据作为平台性公司,为国家重点行业、部门提供数据整合、管理及应 用服务;中电健康产业基金担任投资优质企业、聚集和调动资源的功能)。模式:中电数据:收集地方医疗数据,构建中电数据云平台,进行数据的存储与初步清洗工作;中电健康产业基金:通过资本纽带构建医疗大数据生态体系,投资医疗大数据所辐射的强相关领域,涉及互联网健康和医疗、新IT 技术、金融科技、生命科学四个赛道。优势:主导或参与国家重点工程建设,构建医疗大数据生态闭环,试点地方数据规模巨大,参与标准和规范制定、参与规划国家战略布局。:中电数据优势:中电健康产业基金投资逻辑概要,16,资金药企,数据医院,保险患者,技术医生,政策,中心,要素,关联方,流向数据流,项目所在领域是否 有足够“赛道”,药企,政府,保险,器械企业,医院,患者,医生,Part.2 医疗大数据顶层设计,国新控股:医疗大数据探索要谈应用,规则先行;攻下学术制高点,公司与研究院双轮驱动,业务外包,专人做专事“清”,建设促进产业发展的第三方平台“开放”,作为中国健康医疗大数据股份有限公司成员,国新控股是医疗大数据领域的探路者。(公司介绍:国新控股是在国家授权范围内 履行国有资本出资人职责的国有独资公司,是国有资本市场化运作的专业平台。)其在医疗大数据领域的定位:围绕“规则、标 准、政策”建设的促进产业发展第三方平台。模式: 第一,监管、科研、产业三管齐下。与政策端紧密联系,扼住学术研究关键点,为搭建完整产业链提供平台。第二,公司与研究院双轮驱动。其他业务采取“外包”模式。优势: 第一,由国务院批准成立,直接向国家卫计委(2018年3月,更名为国家卫健委)汇报,参与制定医疗大数据规则、标准、政策;第二,把持左臂“清”、右臂“开放”的天平。一方面,采用业务外包模式,专人做专事;另一方面,积极招徕优质社会力量作 为合作伙伴,为推进产业发展搭建合规的第三方平台。,研究院,民办非企业组织性质,规则、标准、政策,汇报,卫健委牵 头,国务院分 部,牵 头,企业,公司,Part.2 医疗大数据顶层设计,中国健康医疗大数据科技发展集团公司中国健康医疗大数据科技发展集团 公司将利用大数据等技术,为缩小 医患信息鸿沟、减少医疗资源重复 配置、丰富健康医疗手段、防控传 染病流行病发生等方面工作提供新 手段。,中国健康医疗大数据产业发展集团公司中国电子将在网络安全和信息化产业布局基础上, 推进国家健康医疗大数据战略部署;国家开发投资把平台公司作为战略优先项目,协调 自身优势资源进行对接;中国联通依托“匠心网络”、平台及运营能力优势, 凝聚产业合力;结构调整基金股份着力推动产业升级、结构调整和 机制创新,培育新的行业业态和经济增长点。中国健康医疗大数据股份有限公司该平台公司将以资本为纽带,加强联合创新, 打通全产业链数据,促进健康产业的孵化和培 育,构建健康医疗大数据产业生态系统。将对 健康医疗大数据中心、精准医疗、医疗支付等 产业链重点环节投入建设。,三大集团发展现状:三足鼎立,成为推进产业发展的中坚力量,Part.2 医疗大数据顶层设计,中国卫生信息与健康医疗大数据学会是国家卫计委(2018年3月,更名为国家卫健委)主管的国家一级学会。其前身是成立于1984年的 中国卫生统计学会;2004年更名为中国卫生信息学会。2017年7月,经民政部批复,同意中国卫生信息学会更名为中国卫生信息与健康 医疗大数据学会。现有专业委员会56个。,中国卫生信息学会健康医疗大数据政府决策支持 与标准化专业委员会2017年学术年会暨智能健 康医疗大数据峰会在呼伦贝尔召开,2017.7,2017.8,2018.5,2017.12,2018.1,2017.8,中国卫生信息学会健康医疗大数据学 会第七届第三次会员代表大会召开, 金小桃会长在会上发表讲话,“中国卫生信息学会” 更名 为“中国卫生信息与健康医 疗大数据学会”,中国卫生信息技术 / 健康医疗大数据应 用交流大会暨软硬件与健康医疗产品展 览会在山东济南召开,中国卫生信息学会健康医疗大数据国际合作与 交流年会暨医学人工智能高峰论坛在杭州举办, 会议议题包括数据需求和联盟对话、健康大数 据和智慧医疗、医学人工智能应用开发等,2017年中国卫生统计学 学术年会在武汉召开,中国卫生信息与健康医疗大数据学会:围绕卫生统计、信息化建设及健康医疗大数据开展工作,Part.2 医疗大数据顶层设计,数据中心“1+7+X”布局:1个国家数据中心,7个区域中心,若干个应用和发展中心。既有区域集中应用,又有国家一体化数据中心,1个国家数据中心、7个区域中心(东北、华北、华东、华南、华中、西南、西北),X个应用和发展中心。X是指各省(区、市)在依法依规负责收集汇聚上报国家的健康医疗大数据基础上,开展应用创新及产业园建设。目前,已公布的 各省市中心分别为宁波、山东、四川、江西、辽宁、广东、贵州、甘肃、安徽、黑龙江、云南、内蒙古、陕西。:国家医疗大数据7个区域中心布局,西北数据中心,华中数据中心,东北数据中心,华南数据中心,华东数据中心试点:江苏、福建、安徽、贵州、厦门,华北数据中心试点:山东、天津、邯郸,西南数据中心试点:重庆,20,注:2016年10月21日,卫计委电话会议确定“1+7+X”的数据中心布局。另一种说法是数据中心布局为“1+5+X”。目前可查询到的“1+5+X”的说 法来自2018年5月金小桃在第十三届中国卫生信息技术/健康医疗大数据应用交流大会上的讲话,尚无准确官方文件。,Part.2 医疗大数据顶层设计,金小桃 中国卫生信息与健康医疗大数据学会会长,陈曦 国新控股总经理医疗大数据的核心是规则,需要尽快推进科研和监 管,梳理出完整的产业链。它并非一蹴而就,而是 长久性的进程国新需要一些社会资本的合作伙 伴共同做事,同时保证在规则制定方面能够发声。王晓岑 中电健康基金合伙人必须从交易成本的降低及组织边界的打破来看产业 链价值。伴随着这种打破,专科应用的盈利模式也 被推倒重构。新型的盈利模式可以总结为五大趋势:整合出新一波市场主体。包括经销商、云医院、CRO、维修商;边缘科室的提升。包括影像、病理、检验;工业企业成本降低。包括研发费用、市场费用;支付变革出新生态;C端使用习惯变化带来的消费升级。,健康医疗大数据就是二十一世纪的金山银山健康医疗大数据要认真开展考核评估工作,加 快完善标准化建设。特别是要通过评估考核,尽 快明确各试点城市及相关企业集团责权,包括健 康医疗大数据的采集、存储、开发利用、安全保 障、开放共享、管理、“互联网”服务及运营 等责权,从而努力推动健康医疗大数据中心及产 业园建设国家试点工作早日取得成效。,解读:医疗大数据的应用发展,标准是前提,安全是保障,服务是目的,Part.2 医疗大数据顶层设计,Par t3.医疗大数据关键环节Key Link of Medical Big Data,22,3.1 医疗大数据企业图谱,Enterprise Map of Medical Big Data,23,数 据 收 集 层,技 术 层,应 用 层,企业图谱,健康管理,辅助诊疗,医药研发,医学研究,医院管理,基因测序及检测,Part.3 医疗大数据关键环节 医疗大数据企业图谱,雕龙数据,云势软件,妙健康,悦糖,糖医生,第四范式,左手医生,博雅辑因,易联众领健信息,大数医达,医联,杏仁医生,药智数据,春雨医生,好大夫在线,睿至大数据,德力信息,燃石医学,平安好医生,华大基因,芯联达万达信息,东软望海,微医,隽永生物,源启科技,推想科技,橘色科技健客,合药云叮当快药翼健康,汇医慧影,翼展科技,晶泰科技,药渡数据,行动基因,博为软件,锐软科技,数知科技,河钢数字,雅森科技,思路迪,麦歌算法森亿智能,思派网络,天机数据,答魔,海普洛斯,医渡云,零氪科技,采集 存储 打通,算 法,安 全,乐九医疗,互 相 作 用*,神州医疗,羽医甘蓝,安华金和,派兰数据,永洪科技,嘉和美康,安诺基因,绿盟科技,蓝盾股份,壹基因星舰基因,星舰基因壹基因赛福基因微基因水母基因HiDNA比特基因*注:某些数据收集端口同时也处在数据应用层,数据收集层可以为应用层提供底层数据支持,应用效果可以指导数据收集工作注:该图谱仅列举部分企业,健康160,碳云智能,数坤科技,3.2 医疗大数据治理技术环节,Technical Links of Medical Big Data,25,Part.3 医疗大数据关键环节 医疗大数据治理技术环节,医疗大数据治理:医疗大数据的采集及管理、分析等环节的统称, 目的是妥善管理“有用”数据并从海量数据中挖掘价值,26,、,元数据管理数据源元数据管理服务元数据管理,法规与标准规范法律法规标准规范,技术要求,安全保障体系通信安全物理场所安全网络安全应用层安全容灾备份,数据应用层,健康管理,辅助诊疗,医院管理 医保控费,临床科研,医药研发,基因测序 及检测,服务器,存储设备,网络设备,中间件,基础软件,数据交换系统,数据直报系统,业务系统RDBMS,Web Service,EMPI,影像,视频图表,非结 构化 数据 采集 引擎,多媒体数据库,操作数据存储ODS,数据仓库DW,数据集市,元数据库,文档数据,ETL,结构化数据,非结构化数据 文本符号,数据采集层,数据存储与管理层,基础资源层,数据直报,人工智能数据导出模型,自然语言处理患者信息模型,机器学习辅助决策模型,医学知识图谱,医学术语词典,明细层,标 准 化 数 据 集,打通,分析,挖掘,数据分析与挖掘技术,医疗大数据采集及管理:破除数据的壁垒与严守隐私的边界 开发合规前提下的数据标准化集成采集平台,27,PACSLIS,CIS,EMR,PIMS,其他,结 构 化 数 据非 结 构 化 数 据,数据清洗转换,质控去重,过滤排序,数据监管,定时 抽取,归类变异,安 全 保 障 体 系,数据脱敏角色授权,多源异构数据融合,医各疗级数医据疗采卫集生规机范构,分解重构,影像数据,随访信息,病理数据,患者信息,生化数据,数 据 存 储 中 心,医疗大数据采集是实时抽取PACS(影像归档与传输系 统)、LIS(检验科信息管理系统)、CIS(临床信息管 理系统)、EMR(电子病历系统)、PIMS(个人信息 管理体系)等系统中的医疗数据,经异构数据融合、初 步清洗转换后上传至医疗数据存储中心,从而实现各平 台间的数据采集与交换及医疗部门之间的数据共享与业 务协同的过程。该过程需要有实时的数据监管。医疗大数据采集的三个关键环节是:多源异构数据融 合、数据清洗转换、数据脱敏。,目前,医疗数据大多散落在各个系统,碎片化、低质量、孤立分散、类 型多样、标准不一,而优质的大数据采集手段可实现异构数据融合及数 据的初步清洗(数据的前治理),为后续的大数据分析及应用奠定坚实 的数据基础。开发合规前提下的数据标准化集成采集平台,可实现数据 较高质量的存储及随时调用。,:医疗大数据集成采集平台,多源异构数据融合:消除多源信息之间可能存在的 冗余和矛盾,加以互补,改善信息提取的及时性和 可靠性,提高数据的使用效率。数据清洗转换:数据清洗的任务是“洗掉”不符合 要求的“脏数据”。该过程需严格遵守清洗规则, 补全不完整数据、挑出并修正错误数据、对重复数 据进行去重操作。数据脱敏:是指以特定的脱敏规则对某些敏感信息进行变形,实现敏感隐私数据的保护,让其可以正 常使用而不被非法利用的一项技术。注:本章节讨论的数据采集技术以院内医疗数据采集为例,Part.3 医疗大数据关键环节 医疗大数据治理技术环节,敏感大数据分类进行分类大数据挖掘需要对医疗保险号码等敏感 数据进行分类。分类应来自业务词库模型并被传 承到不同数据库中数据的所有物理实例中。,标记敏感数据 首席信息安全官制定有关敏感数据的政策。只有 在识别到敏感数据的位置时,组织才能执行政策, 因此,在业务词库中标记敏感数据非常关键。,发现敏感数据敏感的大数据可能隐藏在非结构化文本中。大数据挖掘应考虑数据分析工具的利用, 以便自动发现非结构化字段的敏感数据。,执行大数据隐私政策,可以通过使用数据分析工具发现敏感的 大数据,以监督对政策的遵从度。,01,02,04,03,患者隐私信息批量泄露医院系统中存储大量患者隐私信息,这些信息对整个医疗产业链如医药公司、健诊中心、广告、中介、保险等行业具有重要的价值。黑产人 员可能通过雇佣黑客入侵医院系统,或收买医院业务人员、信息中心人员、第三方维护和开发人员盗取患者隐私数据。出现非法“统方”行为信息科人员、其他业务科室、系统维护人员等内部人群可以通过合法途径访问,登录数据库、应用系统等批量查询或下载处方数据。医疗财务数据被非法篡改导致资金流失以住院费用查询系统为例,住院病人费用明细清单包括床位费用、医生诊疗费用、药品费用、检查费用等重要信息,维护人员、程序开发人 员、信息中心业务人员拥有数据库的高级别权限,正常的数据维护工作和敏感数据的非法篡改,从权限上无法分离,事后亦无法有效定责。在开发、测试环境中,第三方外包人员可能存在的数据泄露风险:数据脱敏处理,医疗大数据采集及管理下的数据脱敏问题:基于隐私信息泄露等 风险,数据脱敏处理尤为关键,Part.3 医疗大数据关键环节 医疗大数据治理技术环节,医疗大数据分析/挖掘:以文本数据为例文本数据结构化, 使医疗文本达到数据分析的要求,电子化的医疗数据方便存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中包 括大段的文字描述及非统一文字的表格字段。将非结构化文本数据转化为适合计算机分析的结构化形式是医疗文本大数据分析的基础。文本数据结构化:是指基于医学信息学角度,以医学术语要求为依据,对医疗文本中的自然语言进行结构化处理,然后以关系型结构方 式将这些语义结构存储到数据库中的过程。结构化医疗文本主要特点在于对医疗文本中数据的层次结构关系进行规范。换句话说,就是 尽可能的对医疗文本中的数据进行分解,以达到最小结构,并以此成为一个单元,使其在层级结构中都有相应的定位,从而能够进行结 构化的录入和存储,并实现信息的快速查询与共享。,数据预处理,模板提取,模板应用,结构化结果,数据清洗,短句切分,主干提取,短句聚类,统计筛选模板整合,自定义词库,特殊词库,病理样本名词库,反 馈,病理信息,:医疗文本数据结构化处理流程,适用于中文语言的文本数据结构化流程包括数据 预处理、模板提取、模板应用三个阶段。数据预处理包括数据清洗、短句切分和主干提取 个步骤。经过此阶段的处理,原始的病理文本 将转换为由样本名和指标名表示的短句集;模板提取阶段包括短句聚类和统计筛选两个步骤, 经过此阶段的处理,每个样本都将对应维护一个 模板文件;模板应用阶段即对新的病理文本匹配其对应的模 板并套用,产生结构化的输出。,Part.3 医疗大数据关键环节 医疗大数据治理技术环节,谢谢观看,医疗知识图谱是一种从海量医疗文本中抽取结构化知识的手段,也可应用于图像。医疗知识图谱通过将图形学、应用数学、信息可视 化技术、信息科学等学科的理论及方法与计量学引文分析、共现分析等方法结合,利用可视化的图谱形象地展示实体之间的关系。医 疗知识图谱的构建本质是语义网络技术的应用,需要依赖自然语言处理中的很多基础技术,比如句子的分词,实体识别,实体的归一 化和链接等。构建流程通常包括医学知识抽取、医学知识融合、医学知识计算三个环节。知识图谱可应用于电子病历后结构化、医疗信息搜索、医疗问答系统(智能问诊)、医疗决策支持(临床决策)等场景。,医疗大数据分析/挖掘:以文本数据为例构建知识图谱,为“计 算机脑”提供可用的“学习资料”,医学知识抽取,医学知识融合,医学知识计算,从医学数据中提取出实体、关系、属性等知识 图谱的组成元素,并选择合理高效的方式将元 素存知识库中。,对医学知识库的内容及逆行整合、消歧、加工, 增强知识库内部的逻辑性和表达能力,并为医 学知识图谱更新旧知识或补充新知识。,借助知识推理,推断出缺失事实,自动完成疾 病诊断与治疗。,:知识图谱常规构建流程,:一种医学诊断知识图谱构建流程示意,来源:医学信息学杂志、安徽中医药大学,基于3层结构模型的全科医学诊断知识图谱,300种常见疾病,优化NLP算法,疾病知识词典,正则表达式,症候知识词典,隐马尔可夫模型,医学分词词典,依存句法分析,非结构化文本知识(医学教科书、医学文献和医学专著),验证知识图谱临床效果,优化CDSS算法模型,优化CDSS算法模型,