设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 65|回复: 0

走近技术前沿之大数据技术-医保大数据分析侧

[复制链接]

166

主题

0

帖子

12

积分

吃土小白

Rank: 1

积分
12
发表于 2018-1-10 20:00:51 | 显示全部楼层 |阅读模式
前言:
机器学习、深度学习、人工智能、大数据、物联网……这些IT前沿技术正在悄然影响着我们的生活和社会发展。 “大数据”俨然已经成为新一代“网红”。大数据在业内并没有统一的定义,随着大数据的不断火热,其定义通常指具有体量巨大(Volume)、处理速度较快(velocity)、数据类型多样(variety)以及商业价值较高(Value)等4V特点的数据。

上图展示了一个典型的大数据技术栈。底层是基础设施,涵盖计算资源、内存与存储和网络互联,具体表现为计算节点、集群、机柜和数据中心。在此之上是数据存储和管理,包括文件系统、数据库和类似YARN的资源管理系统。然后是计算处理层,如hadoop、MapReduce和Spark,以及在此之上的各种不同计算范式,如批处理、流处理和图计算等,包括衍生出编程模型的计算模型,如BSP、GAS 等。数据分析和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数,流分析基于数据、事件流以及简单的统计分析,而复杂分析则基于更复杂的数据结构与方法,如图、矩阵、迭代计算和线性代数。一般意义的可视化是对分析结果的展示。但是通过交互式可视化,还可以探索性地提问,使分析获得新的线索,形成迭代的分析和可视化。基于大规模数据的实时交互可视化分析以及在这个过程中引入自动化的因素是目前研究的热点。
有2个领域垂直打通了上述的各层,需要整体、协同地看待。一是编程和管理工具,方向是机器通过学习实现自动最优化、尽量无需编程、无需复杂的配置。另一个领域是数据安全,也是贯穿整个技术栈。除了这两个领域垂直打通各层,还有一些技术方向是跨了多层的,例如“内存计算”事实上覆盖了整个技术栈。

医保大数据分析首先要做的是对医保数据进行清洗,医保数据由于各地的信息化系统的多样以及国家数据的标准多版本(如ICD标准)造成数据标准化严重不足的问题,数据不经过处理是无法进行深入分析的。医保数据的规范化工作主要体现在:(1)疾病名称及编码、手术名称及编码、检查化验名称、药品名称等标准化处理;(2)病历、检查化验结果等结构化信息抽取等。当然,随着后续工作中的深入,将会有更多的数据预处理工作。
(1)名称与编码的标准化处理主要可以通过医保知识库与自然语言处理算法实现;知识库提供标准的名称或编码,然后通过文本语义相似度算法选择需要标准化或转码的名称。
(2)病历等非结构化信息抽取结构化信息,可以通过自然语言分词等基础工具加正则表达式的方式实现初步的信息抽取,后期还可以通过标注数据+机器学习算法的方式实现。

医保大数据基于临床知识库、医保知识库、数据挖掘算法,通过对医院、医生、病人、诊疗行为(检查检验、手术、药品)等多维度的相关指标分析后再对各维度的分析结果进行整合分析,就可以发现一些数据的异动,实现事前提示、事中预警、事后审核的医保全流程审核管理和智能化监控。同时可以建立参保人道德风险评估、医生医疗技术水平及诚信评估、以及医疗机构的服务质量评估体系。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表