1、M e d i c a l N a t u r a l L a n g u a g e P r o c e s s i n g医学自然语言处理概述医学自然语言处理的基本任医学自然语言处理的基本任务务 目目录录1医学自然语言处理的基本技医学自然语言处理的基本技术术2医学自然语言处理的典型问题医学自然语言处理的典型问题3我院的实践与总结我院的实践与总结401医学自然语言处理的基本任务医学自然语言处理的基本任务主要用途、基本任务医学自然语言处理的基本任医学自然语言处理的基本任务务主要用途主要用途 病历文本数据挖掘 医疗知识库构建 病历检索 NLP技术技术电子病历医学文献临床指南健康档案结构化、标准化
2、数据分析 统计分析 机器学习疾病诊断模式药物治疗模式预后评价模式可可分分析的析的医医疗数据疗数据标准化的电子病历医学知识库整合后的健康档案临临床床应用应用辅助诊疗系统CDSS药物安全性检测医疗政策决策支持相似病历检索应用实践例:可见多发结节影,大小约1 . 1 6 X 0 . 9 8 厘米例:在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任医学自然语言处理的基本任务务例:胃胀反反酸、泛泛酸、返返酸例 : “无意识障碍”无 | 意识 | 障碍 无 | 意识障碍例:“细菌性痢疾”细菌 /n 性 /ng 痢疾 / n名词名词性语素例:可见多发结节影,
3、大小约1 . 1 6 X 0 . 9 8 厘米010603040502语义分析语义分析06分词分词01词性标注词性标注02实体识别实体识别03实体关系抽取实体关系抽取05实体标准化实体标准化0402医学自然语言处理的基本技术医学自然语言处理的基本技术分词、词性标注、实体识别、实体关系抽取、语义分析医学自然语言处理的基本技医学自然语言处理的基本技术术分词分词 分词是将一句话切分成一个个单词的过程分词工具分词工具 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件关键技术关键技术 基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典
4、中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 逆向最大匹配法 正向最大匹配法 双向匹配法 基于机器学习的分词方法例: “无意识障碍”无意识 | 障碍() 无 | 意识障碍()医学自然语言处理的基本技医学自然语言处理的基本技术术设词典中词语长度的最大值为M基于词典的分词方法基于词典的分词方法开始从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典记录分词结果,对剩余的字符串继 续重复以上步骤匹配成功是否将字符串 长度减少1是剩余字串的长度为零输出例:“南京市长江大桥”1.设最长词为52.在词典中匹配“市长江大桥”3.匹配失败,去掉最前面一个字“市”4.匹配“长江大桥”,匹配
5、成功5.在词典中剩余字符“南京市”,匹 配成功6.输出结果:南京市 / 长江大桥医学自然语言处理的基本技医学自然语言处理的基本技术术词性标注词性标注 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动 词等关键技术关键技术 基于词典的标注方法 先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注 基于规则的标注方法 简单处理,得到初标注结果 建立转换规则,修正错误 得到标注结果例:细菌性痢疾胆囊壁明显增厚细菌 /n 性 /ng 痢疾 /n胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换
6、规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q报告/n”医学自然语言处理的基本技医学自然语言处理的基本技术术实体识别实体识别 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等1组淋巴结、2组淋巴结、3组淋巴结关键技术关键技术 基于规则的方法基于规则的方法 正则法例:清扫第1组,2组,3组淋巴结正则表达式:“% /d + 组淋巴结” 基于机器学习的方法基于机器学习的方法 词向量表示将自然语言处理问
7、题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例: “乙肝”表示为 0 0 0 1 0 0 0 0 0 0 0 0 ,“肝硬化”表示为 0 0 0 0 0 0 0 0 1 0 0 0医学自然语言处理的基本技医学自然语言处理的基本技术术基于机器学习的实体识基于机器学习的实体识别别方法方法例: 头颅CT检查显示腔隙性脑梗死1.人工特征标注:头颅CT检查手段;腔隙性脑梗死疾病;2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 0 0 0 0 0 1 0 0
8、0 0 0 0“TES”, 0 0 0 0 0 0 0 0 0 0 0 0 1 0“DIS” 3.模型进行训练,训练完成后对测试文本进行识别,得到机器标注结果: 平扫见右侧脑室体旁 已标注数据人工特征标注原始文本训练集构建机器学习模型测试集测试的未标注文本输入输出机器标注结果训练特征提取医学自然语言处理的基本技医学自然语言处理的基本技术术实体标准化实体标准化 医学实体在不同的数据源中存在严重的多元指代问题关键技术关键技术 基于医学标准术语库匹配的方法 医学知识图谱如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高 基于机器学习的方法用Word2vec模型对上下文取窗口进行训练,
9、求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。如“首都”和“北京”的语义距离要比“上海”更近医学自然语言处理的基本技医学自然语言处理的基本技术术实体关系抽取实体关系抽取 发现文本中实体对间的各种语义关系 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关 系、基因与疾病的关系等关键技术关键技术 实体共现法认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么这两个实体相关的可能性很大 机器学习方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上构造分类
10、器,再用训练得到的分类器抽取测试文本中的实体关系 深度学习例如: 患者3 天前受凉后出现咳嗽、咳痰 高血压病史40 年,口服厄贝沙坦控制可诱因医学自然语言处理的基本技医学自然语言处理的基本技术术基于深度学习的实体关基于深度学习的实体关系系抽取抽取输入层编码层卷积层池化层输出层(1)输入层:需要判别关系类别的实体文本(2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本对于一句话中每个单词均为 k 维的词向量,因此对于长度为 n的一句话则可用维度为 n*k的矩阵(3)卷积层:设计一个过滤器窗口W,其维度为hk,h表示窗口所含的单词个数,不断地滑动该窗 口,每次滑动一个位置时,完成非
11、线性激活函数的计算(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值(5)输出层:通过向量映射,得到待预测的类别结果医学自然语言处理的基本技医学自然语言处理的基本技术术语义分析语义分析 在词的层次上,语义分析的基本任务是进行词义消歧 在句子层面上是语义角色标注 在篇章层面上是指代消歧,也称共指消解基于机器学习的消歧方法基于机器学习的消歧方法 有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方法来区分多义词的词义 贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型 无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分
12、,在词义识别的时候,将该词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义 聚类算法例: 病毒(计算机病毒、生物病毒) 打球、打电话、打毛衣医学自然语言处理方法总医学自然语言处理方法总结结基于词典和规则的处理基于词典和规则的处理方方法法 词典匹配 正则表达式基于统计的处理方法基于统计的处理方法 支持向量机(Support Vector Machine,SVM) 隐马尔可夫(Hidden Markov Model,HMM) 条件随机场(Conditional Random Fields,CRF) 长短时记忆网络(Long Short Term Memory,LS
13、TM) 卷积神经网络(Convolutional Neural Network ,CNN)两者融合的方法两者融合的方法03医学自然语言处理的典型问题医学自然语言处理的典型问医学自然语言处理的典型问题题问题一问题一 有瑕疵的或不规范的输入 不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临 床医生、病人等)在表达相同或相似概念时其描述方式多种多样例: 2型糖尿病、二形二形糖尿病、2-糖尿病、II型型糖尿病冠状动脉支架置置入术、冠状动脉支架植植入术胃胀反反酸、泛泛酸、返返酸例:冠心病、冠状动脉粥样硬化性心脏病、CAD上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实
14、体标准化医学自然语言处理的典型问医学自然语言处理的典型问题题解决方法解决方法 采用规则的方法,将实体描述经过一系列规规则变则变换换(如,简写转全称)后 进行匹配 采用机器学习方法,基于向量空间模型将实体表示为词向量再学学习向习向量量之之 间的相似性关系间的相似性关系例:冠心病、冠状动脉粥样硬化性心脏病、CAD例: 2型糖尿病、二形二形糖尿病、2-糖尿病、II型型糖尿病冠状动脉支架置置入术、冠状动脉支架植植入术胃胀反反酸、泛泛酸、返返酸冠状动脉粥样硬化性心脏病2型糖尿病冠状动脉支架置入术胃胀反酸医学自然语言处理的典型问医学自然语言处理的典型问题题问题二问题二 病历文档经常需要对某些概念进行否否定
15、性定性质质的描述,因而要在病历中单纯 地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果解决方法解决方法 正则表达式 实体关系抽取问题判断概念是否具有“否定”的上 下文环境例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”实体识别确定实体关系共现法寻找距离相近的实体抽取目标实体前后出现的否定词医学自然语言处理的典型问医学自然语言处理的典型问题题 问题问题三三医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用 关系、药物疾病对应关系等 解决方案解决方案建立完备的医学知识库、知识图谱LSTM、CNN等算法,建立学习模型,识别疾病药物之间的关系
16、相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式例:既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口 服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg 左右属于实体关系抽取的一类典型问题例:送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)淋巴结淋巴结阳性数阳性数清扫数清扫数第2组01第4组02第7组01第11组01右肺中叶结节11病史病史病程病程药物治疗药物治疗高血压10年硝苯地平糖尿病7年二甲双胍医学自然语言处理的典型问医学自然语言处理
17、的典型问题题 问题四问题四 电子病历中出现大量长句,需要做语义识别 解决方案解决方案 对于长句语义识别,适合用LSTM网络网络模模型型,通过搭建多层复合LSTM网络, 将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成 分与上下文的关联度例:食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌, 肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经, 检出之上下切缘及送检(食管切缘)均未见癌keyvalue组织学类型腺癌、粘液腺癌分化程度低分化肿瘤大小5x3.5x1.5cm肿瘤部位胃食管结合部胃小弯医学自然语言处理的典型问医学自然语言处理的典型问题题难点问题难
18、点问题 相同的医学问题、不同的研究目的,提取规则不一样 例:糖尿病提取药物史 降压药、降糖药从文本中直接抽取实体从文本中直接抽取实体即即可可侵袭性真菌病提取抗菌药物史 病前30天内使用抗菌药物、长期(超过2周)使 用抗菌药物不是在文本中直接体现不是在文本中直接体现,需要需要添添加复加复杂杂的语的语义义分析分析 病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻 辑关系 例:入院记录会描述患者病情的发展情况,包含了大量时间信息,以及前后、因 果逻辑关系缘于2012年4月24日车祸后出现左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折, 在当地医院住院手术治疗, 出院后 因左腕疼痛辗转于各
19、诊所肌肉注射或静脉滴注各种抗生素(隔2-3天应用3-5天),达3个月; 于2012年8月出现高热, 口腔内白斑,体温达40,伴发冷, 在某医院诊断为“真菌感染”, 打针治疗后症状无明显好转, 后转至某医院呼吸 科, 诊断为“成人Still病”, 接受“氟康唑、免疫球蛋白、甲泼尼龙40mg 1/日”等治疗,体温降至正常, 出院口服 “甲泼尼龙6片 1/日, 硫酸羟氯喹0.2g 2/日; 来氟米特 20mg 1/日” 。 于2013年12月出现左侧髋关节疼痛, 下蹲困 难(蹲起时自觉双侧腘窝疼痛), 于某医院行髋关节核磁检查, 示:左侧髋臼信号异常并左侧髋关节腔积液04实践经验总结病案纸解放军总医
20、院电子病历文本结构化解放军总医院电子病历文本结构化进进展展全院电子病历文本清洗全院电子病历文本清洗治治理理 原始病历零散的文件存储、纯文本格式、信息不易查询提取 清洗治理后的病历数据库形式存储、半结构化格式、显著提高电子病历利用率患者基本信息患者ID入院记录现病史 个人史 家族史主诉 既往史 婚育史体格检查首次病程记录病例特点 诊疗计划拟诊讨论日常病程记录查房记录病历数据库存储查询提取统计解放军总医院电子病历文本结构化解放军总医院电子病历文本结构化进进展展全院电子病历文本清洗全院电子病历文本清洗治治理理 平台界面展示解放军总医院电子病历文本结构化解放军总医院电子病历文本结构化进进展展基于专病的
21、病历文本结基于专病的病历文本结构构化处化处理理平台平台 不同病种需要提取的医学问题有较大差异,需要个性化定制例:胃癌手术报告需要提取:切除范围、根治度、消化道重建方式等肺癌手术报告需要提取:切口类型、切除部位、是否可见胸腔积液、胸腔粘连等1建立标准化的语料库建立标准化的语料库2辅助建立专病数据库辅助建立专病数据库3建立专病知识图谱建立专病知识图谱4数据挖掘、辅助临床科研数据挖掘、辅助临床科研 胃癌手术报告、病理报告、病程记录的结构化处理 肺癌手术报告、病理报告、CT报告的结构化处理 乳腺癌病理报告、超声报告的结构化处理 侵袭性真菌病的入院记录结构化处理解放军总医院电子病历文本结构化解放军总医院
22、电子病历文本结构化进进展展病历文病历文本本结构化平台结构化平台AI辅助的可配置 规则抽取框架基于深度网络的 信息抽取模型医疗文本结构化平台医疗文本结构化平台可定制抽取字段、精细化要素提取 标准化归一映射、智能化技术框架解放军总医院电子病历文本结构化解放军总医院电子病历文本结构化进进展展AI辅助的可配置规则辅助的可配置规则抽抽取框取框架架,高,高效效地应地应对对个性个性化化提取提取需需求求AI预处理深度理解医疗文本 要素及属性分析定位候选句字段值抽取归一化/标准化字段配置结构化输出字段名值肿瘤部位胃小弯, 胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T
23、分期T4a切缘阴性病历文本胃小弯及胃体后壁溃疡型低分 化腺癌,肿瘤大小约为881.8cm。癌组织侵及胃壁 全层、神经伴脉管内癌栓,再 取上、下切缘及送检(食管下 切縁)均未见癌。病历相似句扩展同义要素扩展医生AI辅助AI辅助指导解放军总医院电子病历文本结构化进解放军总医院电子病历文本结构化进展展基于深度网络的信息抽基于深度网络的信息抽取取模型模型,精准精准理理解病解病历历文文本本基于序列到序列的深度神经网络模型,不但可以在原文中精确定位结果, 还可以对文本进行推理总结结构化输出字段名值肿瘤部位胃小弯, 胃体组织学类型腺癌分化程度低分化肿瘤大小8x8x1.8cmBorrmann分型局限溃疡型T分
24、期T4a切缘阴性病历文本胃胃 小小 弯弯 及 胃胃 体体 后 壁 溃 疡 型 低 分 化 腺 癌 ,肿 瘤 大 小 约 为 8 8 1 . 8 c m 。 癌癌 组组 织织 侵侵 及及 胃胃 壁壁 全全 层层 、 神 经 伴 脉 管 内 癌栓 , 再 取 上 、 下 切 缘 及 送 检 ( 食 管 下结果归一切 缘 ) 均 未 见 癌 。拷贝结果拷贝结果总结与展望总结与展望医学自然语言处理技术医学自然语言处理技术的的发展发展水水平平 在词法分析层面,医疗实体识别以在词法分析层面,医疗实体识别以及及实体实体关关系的系的抽抽取技取技术术已经已经比比较成较成熟熟, 在此基础上可实现在此基础上可实现电
25、子病历文本数电子病历文本数据据的特的特征征提取提取、 病历病历检检索索例:检索条件:既往病史中有肺结核的患者特征提取需求:提取肺癌患者的吸烟史、饮酒史等 在语义分析层面,在语义分析层面,NLP技术还无法实现完技术还无法实现完全全理解理解病病历中历中隐隐含的含的知知识,识,难难以以 像医生一样去理解病历像医生一样去理解病历例:检索条件:提取长期使用抗菌药物史、化疗后肿瘤尺寸变小的患者“长期使用 抗菌药物”“肿瘤变小”不是在文本中直接体现的,需要通过复杂的语义理解去判断 难以利用一种通用模型解决所有的难以利用一种通用模型解决所有的医医学问题学问题 现阶段医疗文本结构化应用模式,大部分是带着医学问题去抽取知识,很大程度 上依赖于医生对医学问题的归纳和总结 相同的医学问题,在不同应用场景下,知识抽取模型不同总结与展望总结与展望自然语言处理未来在医自然语言处理未来在医疗疗行业行业的的应用应用模模式式 通用化模型与个性化定制相结合的通用化模型与个性化定制相结合的医医疗文疗文本本结构结构化化工具工具通用化模型解决医疗实体识别、实体关系抽取的问题个性化定制解决特定条件、特定病种的信息抽取问题,辅助临床科研人员、数据分析人员提取文本特征,进行数据挖掘 智能化的病历检索系统智能化的病历检索系统支持多种形式的高精度检索谢谢聆听!