关于医学信息,你不可不知的那些事

医学信息是个啥

1989年,一个牛逼的组织:国际医学信息协会决定勾搭世界卫生组织,一起搞点事。他们决定在自己的老本行健康领域,引入新的元素:信息科技,调用计算机科学、数学、生物学、统计学、医学等等学科的内容一起来作用在健康领域,攻克医学的大难题。我们国家医学信息的积累最早来源于医学图书馆与医学情报学,其实就是医学的文献资料什么的。

既然要把一个学科的事儿搞成兄弟们一起来帮忙,总得有点方法吧,医学信息就建立了这样的方法。这些方法就是:找吃的(采集),收起来(存储),安排好(管理),分配好(标准化),该吃的时候拿出来(信息提取),混搭材料准备(数据整合),搞个新菜(数据挖掘),大家一起吃(信息共享),给去远方打仗的兄弟们带上或留下(协同)。

那搞这些是为了干啥呢?这作用就大了,比如医学信息都一个标准了,大家用起来方便啊,信息都是散的,咱们搞个系统不就有体系了吗,查起来就方便啊,引入更多资源构建个体系,大家就好找啊,还能知道最新发生了啥,咱建个面向大众的库大家没事头疼脑热就可以查查有没有跟自己匹配的症状,好知道自己要不要去医院啊。

标准这个东东真是非常的重要,没有它,大家都没有可以交流的平台。于是,美国首先建立了巨多牛逼的标准,比如一体化医学语言系统,它里面就有N多不同的医学词汇,不管你叫它癌症和肿瘤,它都能给你识别出来是一个东西。再比如HL7,这时一个卫生信息交换标准,不管你使用什么系统,不管你用的什么硬件,它都可以给你搞一个信息交换,看看彼此数据裸奔的样子。

目前,我国就属于建设的初步发展阶段,缺乏信息资源,缺乏信息标准,缺乏理论支撑,缺乏专业人才,缺乏资金投入,等等。但是,我们国家很重视的好吗,年年都在投钱,我们还是在努力滴。

医学大数据是神马

自从大数据时代降临,医学领域就成为首当其冲的典型,为啥呢?医学信息实在太多辣,你每次看病都有病例,那也是数据之一,你的超声影像,你的检查结果,哪个都是医学数据。人这么多,去医院的人那么多,每次去医院还要做一堆事,数据能不多吗,更何况临床数据还只是医学数据的一部分。

医学数据自身具有量大、增速快、多样性、价值高的特点,所以说现在百度腾讯阿里都拼了命的想往医学领域挪屁股占地盘,因为它有价值啊。可是呢,医学数据种类实在太多,但是却没有很多统一化的标准或者转换工具。那你再想从这里头挖点矿,当然要想想其他的办法,找找其他的兄弟帮帮忙了。计算机科学就是这样被引入进来的。

大数据的技术就是要从各样的数据中,迅速提取出有价值的信息,它可以搞定数据资源的整合、组织、分析,而且数据不需要在一起,分布式的都不在话下。毕竟人家是高级操作系统,能协调这些小弟一起完成任务,这里主要包括Hadoop分布式系统基础架构),HBase(非关系型分布式数据库)、MapReduce(处理大规模数据集的秉性运算模式)。分析这些数据,则会应用到我们常听到的数据挖掘、机器学习、自然语言处理、模式识别、预测建模等。

这里多一句嘴,在医学信息领域,你必须知道的医学标准有国际疾病分类法ICD,也就是所有的疾病都在这里,有它自己的分类;医学系统命名法-临床属于、当代医疗操作术语集... HL7卫生信息交换标准、医学数字影像和通讯标准等临床信息标准。医学主题词表、一体化医学语言系统等医学知识组织语言标准,也就是说,医学知识都在这里面了。

元数据是用来描述信息或数据的数据,它是结构化的,它会描述信息的存储位置、信息资源属性等等。关于元数据,还有很多标准,比如都柏林核心元数据是按照资源内容描述、知识产权、外部属性特征3种基本类型设置的元数据,里面包括题名、主题、描述、来源、语种、关联等。

what is 医学本体?

这可是个专业词汇,它是一些共享概念的规范化说明,是一种医学知识表示的方式。比如平时我们泛化地说疾病,可是这里规范说法就是疾病本体。疾病本体里面不仅有所有的疾病,他们的概念,还有他们之间的关系,最重要的是,它还是计算机可读哦。

医学本体由类、属性、属性的限制条件和与类相关的实例构成。类就是指概念啦,比如癌症,属性就是指它有什么特点,细胞异常,变异了嘛,实例就是肺癌、肝癌等等。

那么,还得补充说明一下,什么是医学知识标识呢?这是一种约定的结构来表示医学知识,并且必须能被转化为计算机可读的形式的处理方法。它可以表示事实、关系、统计、动作等等很多知识。

表示方法就有很多啦,比如(1)一阶谓词逻辑,谓词逻辑是指非真即假,可以表示状态等知识,也可以表示因果关系。(2)产生式 表示具有因果关系的知识。比如有A才有B (3)框架表示 比如{框架名、姓名、年龄、工作年限} (4)语义网络 使用网络的方式表示概念之间的关系 (5)面向对象 嗯,这个就比较难解释了,大体可以理解为归类的方法 (6)医学本体,就是上面提到的这种,可以表示很多东西 (7)神经网络  模拟人的大脑结构的一种信息表示,一般由多层神经元结构组成。

数据整合与挖掘

数据整合分为逻辑上和物理上的整合,逻辑上的整合就是资源不在这里,但你可以有一个连接或其他方式找到这个资源。物理整合就是指东西已经拿过来,你就从这里取就好啦。

最重要的数据挖掘来啦,这可是最有价值的一部分了,计算机中最牛的算法在医学领域多半用到这了。挖掘也要有挖掘的规矩,首先你要提出问题,然后准备数据、对数据进行预处理,包括一致性、准确性、区冗余等,之后进行数据建模,分为描述模型和预测模型。描述模型包括聚类、关联和序列等,预测模型包括分类、回归、时间序列等。最终,通过跑出来的数据进行结果分析与评估。

方法都很炫酷啦,具体包括这些方面:聚类、决策树、网络神经、遗传算法、关联规则、支持向量机、贝叶斯理论、时间序列分析等。

决策树是指用树形结构展现数据受各变量影响情况的分析预测模型,根据目标变量产生效应的不同,制定分类规则,对数据进行分类。神经网络,通过非线性预测模型,可以完成分类、聚类、关联等多种任务。支持向量机则是通过某种首先选择的非线性映射将输入的向量映射到更高维的特征空间去,以实现最优分类。贝叶斯理论则是对位置的状态用主管概率估计,然后用贝叶斯公式对发生概率进行修正的做法。

医学自然语言处理与模式识别

医学中同样有一门很重要的门类,就是自然语言处理,也就是用计算机可读可理解的方式来标识自然语言中的语言学规则,实现自然语言生成等内容。处理流程一般分为,文本切割、句子切割、分词、词性标注、语法分析、语义分析、语用分析等。

而目前大火的机器学习方法多用在此处,机器学习是将要解决的问题视为一个分类问题。其中,有监督的学习是指先要有一套有标注的训练样本,让计算机通过概率统计数据驱动的方法学习,将一些新的样本划分到其中的一个类或多个类。无监督学习又称聚类,是指完全没有标注样本,单纯通过语料来训练学习系统。

医学模式识别是指通过对医学领域中的事物的特征进行处理和分析,实现对这些事物或现象进行描述和解释的技术。方法与之前提到的很多方法类似,主要应用于影响识别、信号分析,数据监测等方面。

日后,我们将对以上提到的所有计算机技术、统计学原理、信息技术做更为深入的了解。

以上内容参照中华医学百科全书。

推荐阅读更多精彩内容