医学信息获取及利用课件.ppt

上传人(卖家):晟晟文业 文档编号:3808222 上传时间:2022-10-15 格式:PPT 页数:63 大小:1.37MB
下载 相关 举报
医学信息获取及利用课件.ppt_第1页
第1页 / 共63页
医学信息获取及利用课件.ppt_第2页
第2页 / 共63页
医学信息获取及利用课件.ppt_第3页
第3页 / 共63页
医学信息获取及利用课件.ppt_第4页
第4页 / 共63页
医学信息获取及利用课件.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、2.1 医学信息获取的基本概念医学信息获取的含义?医学信息获取的理解(1)医学信息获取的传统理解借助某种换能器将医学实体的非电信号转换成医学模拟电信号,再由A/D转换器将模拟电信号转换成医学数字信号的过程定义为医学信息获取。(2)医学信息获取的广义理解凡能够采用某种方法得到所需医学信息的过程都称为医学信息获取22.1 医学信息获取的基本概念(续)n医学信息表示的含义n各种类型的医学信息,由于获取的方法不同,计算机直接识别的数字信息、须经过某种变换或某种编码才能为计算机所识别的信息。n数字变换或编码就是信息的一种表示形式32.1 医学信息获取的基本概念(续)n医学信息获取的基本前提n信息感知是对

2、医学实体信息的认识和感悟n信息感知主要由人体的感觉器官实现n声波振动耳鼓膜和听骨耳蜗管内淋巴液纤毛细胞发生弯曲变形神经生理电信号听觉器官感知声音n信息感知总是具有局限性n视觉器官只能感知16Hz20KHz的可见光n听觉器官只能感知20Hz20KHz的声波n获取人体无法直接感知的信息,必须借助人工感知系统(医学传感器),扩展和延伸人体感知器官功能。42.1 医学信息获取的基本概念(续)n医学信息获取的信息来源n信息源:组织或个人为满足其信息需要而获得信息的来源,称为信息源。n实体型、文献型、电子型、网络型信息源n医学信息获取的基本途径52.2 2.2 医学常规数据信息的获取及利用医学常规数据信息

3、的获取及利用n医学常规数据信息的界定医学常规数据信息的界定n什么是医学常规数据信息?什么是医学常规数据信息?n指在进行医学临床、医学实验、医学教学、医指在进行医学临床、医学实验、医学教学、医学预防和医学管理等一般性的医学实践和科学学预防和医学管理等一般性的医学实践和科学实验中,所得到的各种常见的医学数据。实验中,所得到的各种常见的医学数据。n特点是:多以数据形式直观表现,具有明显的特点是:多以数据形式直观表现,具有明显的可测性;信息多种多样;分为计量指标数据和可测性;信息多种多样;分为计量指标数据和计数指标数据两类。计数指标数据两类。n计量指标数据:各种物理和化学指标的数据信计量指标数据:各种

4、物理和化学指标的数据信息息n计数指标数据,则是指那些不能用数量描述的计数指标数据,则是指那些不能用数量描述的文本数据信息文本数据信息62.2 2.2 医学常规数据信息的获取及利用(续)医学常规数据信息的获取及利用(续)n医学常规数据信息的获取方法医学常规数据信息的获取方法n传统方法:文档查阅法、实验研究法、现场调查法传统方法:文档查阅法、实验研究法、现场调查法n网上搜索方法:从光盘数据库系统、门户网站、搜索网上搜索方法:从光盘数据库系统、门户网站、搜索引擎、网络搜索软件引擎、网络搜索软件n医学常规数据信息获取的基本原则医学常规数据信息获取的基本原则n数据信息的正确性、完整性、统一性、可操作性数

5、据信息的正确性、完整性、统一性、可操作性n统一性:数据信息的形式和名称统一;遵循一定的标统一性:数据信息的形式和名称统一;遵循一定的标准。准。n遵循标准的原则是:国内标准优先国际标准,国家标遵循标准的原则是:国内标准优先国际标准,国家标准优先行业标准。倘若既无国际、国家标准,又无行准优先行业标准。倘若既无国际、国家标准,又无行业标准,也可以在一定约定下自己拟订一个临时性标业标准,也可以在一定约定下自己拟订一个临时性标准文本。准文本。72.2 2.2 医学常规数据信息的获取及利用(续医学常规数据信息的获取及利用(续)n医学常规数据信息获取的利用途径医学常规数据信息获取的利用途径n统计处理、数据库

6、构建、科学计算、大数据统计处理、数据库构建、科学计算、大数据利用利用n大数据:指那些规模巨大到无法利用目前常大数据:指那些规模巨大到无法利用目前常用的数据处理技术和主流软件工具,在合理用的数据处理技术和主流软件工具,在合理的时空中实现获取、存储、处理的海量数据的时空中实现获取、存储、处理的海量数据及其技术。及其技术。n4 V特征:特征:Volume(巨量巨量)、Variety(多样多样)、Velocity(高速高速)和和Value(价值价值)n核心:海量数据进行存储和分析处理核心:海量数据进行存储和分析处理82.3 医学生理信息的获取及利用n医学生理信息的含义医学生理信息的含义n生命体在其生命

7、活动过程中,无论是器官组织生命体在其生命活动过程中,无论是器官组织还是细微细胞都可能成为生理信息产生的信息还是细微细胞都可能成为生理信息产生的信息源源n人体生理信号的类型:表人体生理信号的类型:表2.1n电信号:内源性信号、外源性信号电信号:内源性信号、外源性信号n非电信号:机械性质信号、化学性质信号非电信号:机械性质信号、化学性质信号n生理信号特点?生理信号特点?n幅值小,频率低幅值小,频率低n信噪比低,随机性强,易受干扰而不易被识别信噪比低,随机性强,易受干扰而不易被识别n一般需要换能器才能获取一般需要换能器才能获取92.3 医学生理信息的获取及利用(续)n医学生理信息获取的基本原理n医学

8、生理信息获取的基本过程图2.210医学生理信息获取的基本原理(续)医学生理信息获取的基本原理(续)n医学生理信息获取的基本技术n(1)人体生理信号的表征。是一个时间的函数n对于具有连续重复特征的生理信号,通常采用准周期函数(如心电图信号)或瞬时函数(如眼动图信号、受刺激的细胞信号)进行描述。例如心电图中的P-QRS-T复合波就是以准周期或近似周期形式产生的波形信号来构建的波形图。n对于具有随机特性的生理信号,多数情况只能用统计学的方法进行描述 11医学生理信息获取的基本原理(续)医学生理信息获取的基本原理(续)(2)医学传感器拾取信号的原理 医学传感器概念:传感器又称换能器,是医学检测仪器及人

9、体直接耦合的一种设备,其作用是对人体生理信号进行感知和拾取,并转换成模拟电信号。医学传感器分类(表2.3)工作原理分:物理型、化学型和生物型输入信息分:有位移型、压力型、速度型、流量型、温度型和电位型用途分:脉搏传感器、脑电传感器、胃电传感器传感器组成:感受器:完成对人体温度、压力和流量等物理量的识别和拾取换能器:将拾取的物理量转换成大小不同的电信号形式12医学生理信息获取的基本原理(续)医学生理信息获取的基本原理(续)(3)生理信号的ADC转换概念:人体生理信号经传感器拾取后得到是模拟电信号,通过模/数转换即A/D转换或称ADC(Analog to Digital Converter)转换技

10、术,使其数字化。ADC转换器组成:模拟多路选择电路、采样保持电路、A/D转换及控制电路A/D转换器有8位、12位、16位、24位或更高位的多种分辨形式ADC转换的工作过程分两步:一是采样,二是量化。如图2.313ADC转换的工作过程n采样频率的选择n采样,就是将模拟信号的幅值被等分地间隔开来,即将一个连续时间函数的信号变成具有一定时间间隔T,使在每一个时间ti i=1,2,n时才有函数值的离散信号过程。n香农-奈奎斯特(Shannon-Nyquist)采样定理:采样频率f至少应是原始信号x(t)中最高频率的2倍n量化阶数的确定n量化,就是在采样所确定的时间间隔位置对信号进行量化处理即以有限的数

11、字精度进行数字表示的过程。n量化阶数m,指幅值范围对量化阶值的比值,用2的乘幂形式表示,即m=2n,这里的n为二进制数的位数14 医学生理信息获取的方法及利用分析医学生理信息获取的方法及利用分析n心电信号的数字化获取方法及其分析n常见心电信号的数字化采集和分析系统n检测心律失常的心电信号采集和分析系统n动态心电信号采集和分析系统n心电信号采集和分析系统n心电图机、心电生理检则仪、运动平板心电检测机、动态心电图检测仪、心电监护仪n系统构成n测量程序:实现心电信号的数字化准确获取n分析程序:不同类型的心电系统差别较大15医学生理信息获取的方法及利用分析(续)医学生理信息获取的方法及利用分析(续)n

12、脑电信号的数字化获取方法及其分析n脑电图EEG(Echoencephalography)是大脑神经活动在头皮上产生的电位分布n数字化脑电图设备:n脑电功率谱分析设备n动态脑电图机n脑电地形图BEAM(Brain Electrical Activity Mapping)仪n脑电信号分析和检测系统n测量程序:头皮电极拾取脑电信号,ADC转换数字信号n分析程序:不同的脑电系统区别很大162.4 医学图像信息的获取及利用医学图像信息的获取及利用n医学图像信息概述医学图像信息概述n医学图像信息的含义:一种用图像表达医学信息的医学图像信息的含义:一种用图像表达医学信息的信息源,是医学诊断的重要依据。信息源

13、,是医学诊断的重要依据。n医学图像种类:医学图像种类:X射线图像、超声图像、磁共振图射线图像、超声图像、磁共振图像、同位素图像和显微图像像、同位素图像和显微图像n医学图像信息的基本特征医学图像信息的基本特征n维数多、信息量大(表维数多、信息量大(表2.4)、生命性)、生命性17表2.4 一些常见医学图像信息文件的大小图像类型一幅图像(位)图像数/检查文件/检查核医学图像1281281230-601-2M磁共振图像25625612608M超声图像512512820-2305-60M数字减影血管造影图像5125121215-404-10M计算机断层扫描图像512512124020M计算机放射图像2

14、048204812216M数字化X线摄影图像2048204812216M数字化X线乳腺摄影图像40964096124128M18医学图像信息获取的基本原理医学图像信息获取的基本原理n医学图像信息获取的过程(两个阶段)n光电转化:将反映不同光强度的医学图像信息转化成模拟电信号,n光电转换设备:电荷藕荷器CCD(Charged Coupled Device)和互补型金属氧化物半导体CMOS(Complementary Metal Oxide Semiconductor)n模数转化:把模拟图像信号转化为数字图像信号,即实现图像的采样和量化。n图像采样,是将空域或时域上的连续模拟图像拾取和变换成离散的

15、采样点(像素)集合的过程。n图像的量化,就是将采样得到的像素点上表示明亮程度的信息的连续量离散化后,用数值(一般用整数)阵列表示的过程19医学图像信息获取的基本原理(续)医学图像信息获取的基本原理(续)n图像信息的表示形式n采用直观的矩阵形式表示。将图像离散化,离散后即可得到一个mn阶矩阵形式。P40(2.1)n阵列中每个点(xi,yi)的函数值表示采样点的灰度值,x和y分别表示在x,y方向的变化距离即采样周期。为方便起见,通常取x=y=0,x=y=1。20医学图像信息获取的基本原理(医学图像信息获取的基本原理(续)续)n象素点的灰度级别n一幅图像的清晰度和保真度除了及象素点的采样周期有关,还

16、及表示该象素点的灰度级别有关n灰度级别越高,效果越好,反之就越差。n人眼对黑白程度只能分辨出20多个级别,常用1个字节256等级;用2个字节表示,灰度级别高了,有64k个等级,但存储空间却增加了1倍21医学图像信息获取的基本原理(续)医学图像信息获取的基本原理(续)n黑白图像,亦称二值图像,其像素值只有0和1n灰度图像,每个像素的信息由一个量化的灰度级来描述n彩色图像:每个像素的信息是由RGB三种原色构成,而RGB又由不同的灰度级来描述,因此彩色图像是用三个矩阵共同来描述22医学图像信息获取的基本原理(续)医学图像信息获取的基本原理(续)n医学图像信息的编码方法n什么是图像信息的编码?如何使图

17、像信息在计算机中占用较少的存储空间,“数据压缩”。n图像信息的编码方法:n无损压缩,可逆压缩。压缩比2:1。n有损压缩,不可逆压缩。高压缩比,图像质量降低。23哈夫曼编码算法n基本思想和特点n依据数据出现频率来编码,达到压缩n特点:是一棵加权二进制树;频繁元素在树顶部;左分支分配1(或0),右分支分配0(或1)。n算法过程P41 n构造唯一的数据元素概率集合,各元素是节点;n概率集合列表中数据元素以值递增排序。n最小的两个概率值相加 形成二叉树父节点,这两个值为叶节点,并将值小的(左侧)赋1,并从列表中移除这两个值,将新节点插入列表中,列表仍保持递增。n重复 直到列表中留下 1个元素,即为 整

18、个 二叉树的父节点。n从二叉树树根节点开始找到 每个叶节点,把沿途经过的“1”和“0”串起来,即可得到每个叶节点的编码24哈夫曼编码算法(续)n案例案例2.1 设一幅医学图像中出现有设一幅医学图像中出现有8种灰度级别种灰度级别s0,s1,s2,s7,且已知在该幅图像的象素序列中,且已知在该幅图像的象素序列中,s0,s1,s2,s7分别出现的次数是:分别出现的次数是:4,5,6,7,10,10,18,40,试用哈夫曼编码方法对其进行编码。,试用哈夫曼编码方法对其进行编码。n先计算每种灰度级别出现的概率先计算每种灰度级别出现的概率p(si)(i=0,1,2,7)并按并按从小到大进行排序,即:从小到

19、大进行排序,即:n0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40n再将最小的两个概率节点值相加得到新的概率节点值,并构再将最小的两个概率节点值相加得到新的概率节点值,并构建二叉树和赋值建二叉树和赋值“0”和和“1”,之后再重新排序,即:,之后再重新排序,即:n0.06,0.07,0.09,0.10,0.10,0.18,0.40n按算法构造按算法构造 二叉树二叉树 25哈夫曼编码算法(续)n哈夫曼编码二叉树10.40.60.230.370.180.190.090.100.040.050.100.130.060.07S4S1S0S6S3S2S5S7111011100

20、0000126教材P42 图2.7纠错 0.230.370.1327案例分析假设有一个字符列表“abcdefg”,它们在一个文件中出现的频率依次分别是17、7、22、13、77、90、45。试用霍夫曼编码算法为每个字母编码。28哈夫曼编码算法(续)n编码效率分析n哈夫曼编码:用 可变长码子编码,对出现概率大的符号赋短码子,出现概率小的符号赋长码子。n信息编码的效率由信源熵H(S)及信源符号的平均码长L的比值决定。本例:=0.977n其中,p(si)为第i个级别灰度出现的概率值,li为信源第i个状态si编码长度的平均码长。n本例:29医学图像信息获取的基本方法及利用医学图像信息获取的基本方法及利

21、用n从X射线成像系统中获取图像信息n利用人体器官和组织对X线的衰减不同,透射的X线的强度也不同这一性质,检测出相应的二维能量分布,并进行可视化转换,从而可获取人体内部结构的图像。n常规X线数字成像系统n计算机X线摄影系统CR(Computed Radiography)n数字化X线摄影系统 DRn数字减影血管造影系统DSA(Digital Subtraction Angiography)30ADC转换器转换成数转换器转换成数字字X线的影像信息。线的影像信息。3132血管图像。血管图像。nDSA获取影像的过程是一获取影像的过程是一个动态过程个动态过程33X线断层扫描成像系统3435螺旋螺旋CT n

22、 螺旋螺旋CTCT机是目前世界上最先进的机是目前世界上最先进的CTCT设备之一,设备之一,其扫描速度快,分辨率高,图像质量优。用其扫描速度快,分辨率高,图像质量优。用快速螺旋扫描能在快速螺旋扫描能在1515秒左右检查完一个部位,秒左右检查完一个部位,能发现小于几毫米的病变,如小肝癌、垂体能发现小于几毫米的病变,如小肝癌、垂体微腺瘤及小动脉瘤等。微腺瘤及小动脉瘤等。通过网络信息,了解什么是螺旋通过网络信息,了解什么是螺旋CT,它有那些特点?,它有那些特点?36从超声成像系统中获取图像信息n超声波:是指高于人的听觉范围即频率在20kHz的机械波,医学应用中的超声波是一种纵向压力波,其频率一般在1M

23、Hz到几十MHz之间。n临床超声系统:n超声诊断系统即B超(B-scan or B-mode)n超声彩色多普勒血流成像系统(彩超)n超声谐波成像系统n超声计算机体层成像系统37超声成像基本原理n利用超声波良好的指向性和他的反射、折射、衰减规律及多普勒效应等物理特性,借助超声波换能器和各种数字声束技术,将设定工作频率的超声波导入被检测的人体内,由于超声波遇到不同组织或器官的界面时,将发生不同程度的反射和透射,当接受设备接受到携带有相关信息的回波信号,经数字扫描变换等处理最终形成一幅超声图像。38n磁共振成像系统MRI(Magnetic Resonance Imaging):是利用人体内氢原子核质

24、子(1H)在磁场内共振的特性,通过不同的扫描脉冲序列形成横断面、冠状面和任意切面的扫描成像。n利用人体不同器官的正常组织及病理组织之间在驰豫时间上存在的差异.n驰豫过程及驰豫时间:系统通过对处在静磁场中的人体施加某种特定频率的射频脉冲,使人体组织中的氢原子受到激励而发生磁共振,当中止后,氢原子核把吸收的能量逐步释放,其相位和能级都恢复到激发前的状态,称驰豫过程;而恢复到原来平衡状态所需的时间称驰豫时间,经过必要的前置放大,再由ADC转换成数字信号。39从核医学成像系统中获取图像信息n核医学(NM:Nuclein Medicine)即原子核医学成像,又称放射性核素成像RNI(Radioisoto

25、pe Nuclein Imaging)n是通过人体内注入能够发射伽马()射线放射性示踪剂来成像,使带有放射性核的示踪原子进入要成像的组织,然后测量放射性核素在人体内的分布来成像的一种技术。n放射性核素成像技术可观察放射性在人体内的状况及运动变化,反映人体内的生理生化过程,能够反映器官和组织的功能状态,可显示动态图像。n构成:由探测器、扫描床和计算机系统组成,在功能上都是通过探测器对光子的获取,并经光电和模数转换实现对人体图像的处理。40从核医学成像系统中获取图像信息(续)n分类:n单光子发射成像(Single Photon Emission Tomography,SPECT),早期诊断恶性肿瘤

26、骨转移的骨骼显像、诊断心肌缺血的心脏灌注显像和诊断异位甲状腺的甲状腺显像。n正电子发射成像(Positron Emission Tomography,PET)。对肿瘤的早期诊断、恶性肿瘤的分期和分级、原发病灶的寻找、放疗生物靶区的定位n因为SPECT和PET都是对从病人体内发射的射线成像,所以统称为ECT。412.5 医学知识信息的获取和利用n医学知识信息获取的概念n医学知识信息的含义n韦伯斯特(Webster)词典:“知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。”n知识工程的观点,知识是人们在生活和工作

27、实践中所使用的事实、规则和方法,以及对他们的解释、转换和使用过程。n医学知识信息,就是人们对医学科学和医学实践规律性认识的一种医学知识的信息表达。42医学知识信息的类型n按照知识信息的基本形式划分n描述医学对象及其属性的知识、描述医学对象之间关系的知识、描述医学对象因果关系的知识、描述医学对象行为、状态和过程的知识等n按照知识信息的基本功能划分n一阶知识,指最基础的知识,如医学事实;二阶知识,指关于事实利用的知识,如医学概念;三阶知识是指关于对二阶知识使用的知识。43医学知识信息获取的基本任务n医学知识信息的获取是构造医学知识系统的前提和重要步骤。n医学知识系统就是专门研究医学知识的获取、存储

28、、表示、转换、分类和利用等问题的应用系统n1.知识信息的收集:从知识源中把各种经过识别、理解、筛选、归纳、能为所用的信息抽取出来的过程。n2.知识信息的表示:知识表示就是知识的机器表示;是一种自然语言的机器表示。知识表示是一种特殊的编码形式,是将获取的知识用一种方法构造成一个知识模型的过程。44医学知识信息获取的基本任务(续)n产生式规则法nifthen;nifthen(可信度)。n案例2.2 由美国斯坦福大学研制的医学传染病辅助诊断MYCIN系统,其知识模型就是主要采用了产生式规则法。下面就是MYCIN系统中的一条规则:n前提:(1)细菌革氏染色阴性,(2)形态杆状,(3)生长需氧n结论:该

29、细菌是肠杆菌属,CF=0.845医学知识信息获取的基本任务(续)案例案例2.3 下面是某个智能分析诊断系统中的规则形下面是某个智能分析诊断系统中的规则形式,其编码方法更是一目了然。规则的一般形式是:式,其编码方法更是一目了然。规则的一般形式是:如果:条件(如果:条件(X1)的可信度为()的可信度为(Y1),且),且 条件(条件(X2)的可信度为()的可信度为(Y2),且),且 条件(条件(Xn)的可信度为()的可信度为(Yn),),则有:结论(则有:结论(X),其可信度为(),其可信度为(Y)。)。3.医学知识信息的存储医学知识信息的存储医学知识信息输入到专门用于存放知识信息的知识库医学知识信

30、息输入到专门用于存放知识信息的知识库中保存起来,以便在知识系统的运行推理中使用中保存起来,以便在知识系统的运行推理中使用46医学知识信息获取的方法1知识信息的人工获取常规医学知识的获取医学领域专家知识的获取2.知识信息的自动获取自动获取医学知识信息是指利用专门的计算机系统获取相关知识的方法通过编辑器自动获取知识通过机器学习方法自动获取知识机器学习(Machine Learning)就是要构建一个知识系统,使该系统能够模拟人类学习的过程和行为,自动地通过学习、归纳,以获取相关知识信息并不断完善自身的性能47决策树(Decision Tree)n决策树(Decision Tree)系统是通过对训练

31、示例的学习和训练最后得到的一个离散新知识的信息系统。nID3算法,悉尼大学J.R.Quinlan1979年提出nID3算法核心思想:通过对给定的训练示例进行学习,从根节点开始,自顶向下对每个树节点进行划分成分支节点,并使其信息熵值不断减少直至熵为0,即到达叶节点而生成决策树。48复习信息熵(P10)n香农信息熵:计算离散型随机事件信息量,P10n条件熵和联合熵:对于信源是两个离散型随机事件X和Y,则它们的联合信息熵H(X,Y)和条件信息熵H(X|Y)可分别由式(1.3)和(1.4)n平均互信息量:表示信号Y所能提供的关于X的信息量大小n I(X,Y)=H(X)-H(X/Y)49ID3学习算法算

32、法步骤:1)把训练示例看成是一个集合,并按照示例的某个属性或划分目标构造一棵树。如果其信息熵等于0,表明训练示例不存在不确定性,决策树就此生成;否则下一步。2)按照划分目标将集合划分成若干子集以形成一棵由父节点和子节点形成的划分树,并标记指向父节点的指针。3)分别计算各子节点(树枝节点)的信息熵值,若为0,则无需再划分新的子节点;若否,则对该节点继续划分新子节点。4)重复2)和3)两步,直到所有树枝节点所形成的子集划分成新的子节点的信息熵值等于0为止。5)从根节点开始,沿着指针将决策树每条树枝节点连接起来,最终得到通过学习而形成的新的知识规则。50ID3学习算法(续)n案例案例2.4 设某医院

33、眼科医生在决策患者佩戴隐形眼镜时已设某医院眼科医生在决策患者佩戴隐形眼镜时已有一定经验,并总结出了如表有一定经验,并总结出了如表2.5所示的决策表。如果将这所示的决策表。如果将这个决策表作为一个训练示例集合交给计算机系统用决策树的个决策表作为一个训练示例集合交给计算机系统用决策树的方法去学习,那么系统将会获取什么样的知识?方法去学习,那么系统将会获取什么样的知识?n首先把首先把24个训练示例当作一个集合个训练示例当作一个集合S,如果上述决策表完全,如果上述决策表完全正确,每个训练示例都能得到正确和唯一的诊断,这时集合正确,每个训练示例都能得到正确和唯一的诊断,这时集合S就没有不确定性,这就说明

34、了描述就没有不确定性,这就说明了描述S的决策树和规则集也的决策树和规则集也就没有不确定性,其熵值均等于就没有不确定性,其熵值均等于0。n本案每种决策的概率分别是:本案每种决策的概率分别是:np(1)=4/24,p(2)=5/24,p(3)=15/24n诊断集合诊断集合S的信息熵为的信息熵为:H(S)=1.326bitn存在一定的冗余信息存在一定的冗余信息,ID3的目的正是要尽量减少这种冗余的目的正是要尽量减少这种冗余信息。其方法是采用不断减少熵值的方法将训练集合划分成信息。其方法是采用不断减少熵值的方法将训练集合划分成较小的子集,直至信息熵等于较小的子集,直至信息熵等于0为止。为止。51ID3

35、学习算法(续)n子集划分:划分的原则是通过选择某个及训练集合S具有最大互信息的属性来划分子集的,因为每一个决策总是及相关,就是说每一个属性值必然会包含关于的某些信息。其中互信息I是由(式2.3)决定:n只需计算计算属性A、B、C、D的条件熵即可52ID3学习算法(续)属性A的决策的条件熵为决策属性A的频率如表2.6对于属性B、C、D的决策的条件熵分别是:H(S|B)=1.2867(bit),H(S|C)=0.9491(bit),H(S|D)=0.7773(bit)属性A、B、C、D及训练集合S的互信息分别是:0.0394、0.0394、0.3770、0.5488个比特53ID3学习算法(续)n

36、根据决策属性D的属性值将集合S划分成两个子集D1和D2。仍需计算两个子集的信息熵,如果某个子集的信息熵等于0,则该子集无须再进行划分;否则,则要进一步进行计算所有属性及该子集的互信息,然后再按选取互信息最大的属性进行新的子集的划分。n这里的H(D1)=0,说明D1这个子集不需再划分成新的子集了。但H(D2)为:54ID3学习算法(续)553数据库中的知识发现n什么是数据库中知识发现n知识发现KDD(Knowledge Discovery in Dadabase):是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡的过程。n是将数据库中隐含的数据模式,以一种容易被人们理解的

37、形式表现出来,以帮助人们从大量数据集合中获取有用的信息。563、数据库中知识发现的过程(续)nKDD过程可分数据准备、数据挖掘和信息评价n数据准备:包括数据选择、数据预处理和数据变换三个步骤n数据挖掘:从不同数据源中的大量随机的,甚至是模糊的数据中,像从矿石中淘金一样“挖出”隐含的、事先并不知道而又潜在有用的知识信息。n信息评价:对所发现的数据信息或模式进行解释和评估57数据挖掘的基本原理n分类:数据分类及模式预测、数据聚类及关联规则、依赖关系及依赖模型、异常及趋势n数据挖掘及传统的数据查询区别:n数据查询所得到的信息一般是表面的、能为用户直觉感受到的;而数据挖掘所“挖出”的信息通常是深层次的

38、、预先难以知晓和预料的,甚至有的是及人的直觉相违背但又是非常有用的;n数据查询方法是直接的,格式也往往是固定的;而数据挖掘的方法却是灵活的,需要根据用户的不同要求和不同的数据目标,选择适当的挖掘算法。58基于医学知识信息获取的知识系统n概念:知识系统是具有知识获取、知识存储、知识推理和知识应用的计算机系统。n医学知识系统的基本结构59医学知识系统的基本结构(1)知识库(Knowledge Base)存储医学常规知识和医学专家的经验知识。方法:首先确定求解问题所需的事实和规则,并选择一种知识表示方法将其表示出来,然后再用一种语言将事实和规则存入到知识系统中。(2)数据库(DataBase)用来存

39、放推理所涉及到的初始数据和推理过程中的中间结果以及最终结果60医学知识系统的基本结构(续)(3)推理机(Inference Engine)模拟医学专家的思维过程,根据当前已知的事实(数据库)和知识(知识库),按照某种推理策略进行推理以求得问题的答案。(4)解释机制(Explain Machine-made)用于回答用户对系统的提问,以增强用户对系统求解问题的信心。(5)知识获取机制(Knowledge Get)(6)人机接口(Person-Machine Interface)61作业n假设有一个字符列表“abcdefg”,它们在一个文件中出现的频率依次分别是17、7、22、13、77、90、45。试用霍夫曼编码算法为每个字母编码。n2.6.1 用霍夫曼进行编码处理n2.6.2 对疾病诊断数据,设计决策树n查资料进一步了解PET 和螺旋CT的 原理和临床用途。62谢谢大家!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(医学信息获取及利用课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|