1、前言n20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期,20世纪末叶是人工语言与自然语言相结合的新兴阶段。n自然语言由于存在词汇的同义、多义现象,词汇的模糊性和不确定性,词汇量的巨大,词间关系不明晰等问题,不可能单纯使用它进行检索,所以需要用一种受控检索语言对检索和标引所用的词汇进行控制,把用户的语言和标引人员的语言统一起来。由于信息量的扩充,给人工语言的处理带来了很大的困难。2020/11/32n(1)工作量大。因为其工作繁难,国外的信息检索系统中有75%的运行费用要用于人工标引。(2)效率低。标引员要正确标引一篇文献,往往要耗时一个半小时以上。n(3)一致性差。美国的Cleverton
2、曾做过一些试验,他指出:两组人为同一主题编出的叙词表,其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人,检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。2020/11/33n(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表,使标引速度大大地降低。n(5)标引员与检索员都必需熟悉词表才能工作,使用非常不便。因此,必须发展使用电脑来进行自动标引。早在1956年,美国的H.P.Luhn就开始了文献自动标引的试
3、验;60年代初,美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。n中医药文献数据库在多年的建库过程中,深刻体会到标引工作的复杂性与耗时、人、财量。2020/11/34n为实现自动标引与自由检索,以及数据库的深层次加工与数据挖掘。现行方法有二个方面。n数据库结构的拆分与细化。n语言处理。美国国立医学图书馆研制了统一的医学语言系统(Unified Medical Language System,UMLS),其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。2020/11/35一、UMLS的建立与发展过程n建立目的:旨在建立一个计
4、算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统,其目的在于提高计算机程序“理解”用户提问中生物医学词汇语义的能力,并利用这种理解帮助用户检索和获取相关的机读情报。UMLS是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序,克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题,帮助用户从电子病
5、案系统、书目数据库、图像数据库、事实数据库、专家系统等各种联机情报源中检索和获取综合性或特定性的情报信息。主要解决:1)同一概念由于不同的人或在不同的数据库中可能会有不同的表达方式;2)数据库系统分散所造成的检索不完整的问题。2020/11/36发展过程n1986-1988的第一阶段,其研究和开发的重点是调查用户需求、开发研究工具、确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括Mesh、SNOMED、CMIT和PDQ词表在内的联接试验。n1989-1991年为UMLS的发展阶段,其开发的重点是迅速研制和
6、发行三个UMLS产品的试验版,同时继续开展用户调查和UMLS功能开发。n92年至今为应用阶段,1996年UMLS新增了一个组成部分即“专家词典”。在此阶段,许多研究机构利用UMLS 进行基于Internet的应用开发,如决策支持系统DX plain、文献检索系统Web medicine、临床Web搜索系统Clin web、医学世界检索Medical world search以及集成化的Med weaver等。同时进行了NLM/AHCPR大规模词汇测试。2020/11/37二、UMLS的组成n超级叙词表(Metathesaurus)n语义网络(Semantic Network)n情报源图谱(In
7、formation sources Map ISM)n专家词典(Specialist Lexicon)四个部分组成。这四部分紧密联系、不可分割,构成了一个有机的整体。2020/11/38n(1)超级叙词表n超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。n 1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇,2001年12版收录了83万个概念,190万个词。到2002年,第13版超级叙词表收录了776940个概念共210万个词。n来源:这些概念和词来自60 多个生物医学受控词表、术语表、分类表、
8、专家系统中的词汇、词典及工具性词表等,如Mesh表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、医学系统化术语表、国际疾病分类修订第 10 版及其他各版、护理诊断分类、麻省总医院研制开发的DX plain专家系统、多兰氏图解医学辞典、校对词表3.1 版等。2020/11/392020/11/310n概念组织:叙词表是依据概念(concept)或涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因此,可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系,同时增加了一个新的关联。整合成一个庞大的可控的知识库。n对于同一
9、概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I 级)-术语(II 级)-词串(III 级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。2020/11/3112020/11/312表达相同概念的不同形式款目关联n表达相同概念的语词串接起来,并在不同概念间建立关系,便于主题相关性的判断。n在Meta中的每一个概念都会被指定一个概念识别码(unique concept identifier,简称CUI)。CUI本身不具意义,只用作连结的指针。而每一个表达概
10、念含意的字符串(name or string),不管是大小写的分别或语文上拼字的不同,凡是有差异者均视为一个独立的字符串,而分别赋予不同的字符串识别码(unique string identifier,简称SUI)。由于Meta实际上是由英文款目所构成的,所以不同词型间表达相同概念的语词要能连结在一起,就必须依赖一般形式识别码术语码(common term identifier,简称LUI)的指引。2020/11/3132020/11/314Concept(CUI)Terms(LUIs)Strings(SUIs)C0004238 Atrial Fibrillation(preferred)At
11、rial Fibrillations Auricular Fibrillation Auricular FibrillationsL0004238 Atrial Fibrillation(preferred)Atrial FibrillationsS0016668 Atrial Fibrillation(preferred)S0016669 Atrial FibrillationsL0004327(synonym)Auricular Fibrillation Auricular FibrillationsS0016899 Auricular Fibrillation(preferred)S00
12、16900(plural variant)Auricular Fibrillations2020/11/315表1:字符串“Atrial Fibrillation”(心房纤维颤动)和字符串“Atrial Fibrillations”在系统中被视为不同的字符串,故分别给予不同的SUI编码。然此二字符串实际上仅是单复数形上的差别,所以会被指引到相同的Term identifier(LUIs);同理“Auricular Fibrillation”和“Auricular Fibrillations”也会同样被指引到另一个term identifier(LUIs)。而当系统检视term identifi
13、er时会发现“Artial Fibrillation”和“Auricular Fibrillation”在意义上是一致的,所以二个LUIs会被指引到相同的concept identifier(CUIs)。如此循序建立四个不同形式但表达相同概念之语词间的关系。不同语词间关系建立之后,会牵涉到选择用语的问题,如:概念的标准用语、参照互见及缩写形式等。为了节省在选择选用语时所花费的心力,Meta的处理程序是建立索引表间的优先级。以UMLS现有的策略而言,MeSH是Meta所涵盖索引词中,拥有最高优先权的索引系统,所以MeSH中出现的概念词均视为选用词(preferred term),而其它索引表中若
14、有出现表达相同概念而形式不同的语词时,则视为参照款目。同理,若在MeSH中未涵盖的概念,则依第二顺位的索引表来决定选用词的形式,依此类推。2020/11/3162020/11/317Meta利用LUIs来串接SUIs及CUIs。但是这种处理方式有可能导致一个字符串若含有多种意义时,可能会被错误指引。尤其是Meta中包含多个索引表系统,此类状况当然可能发生。举例:字符串Cold的含义可能指温度上的冷,也可能是指一般感冒,因此在SUIs中将其分别定义为cold(1)、cold(2),在String部份就会产生四个与cold近似的字。因cold、cold(1)、cold(2)在拼字上仅有些许差异,故
15、被指引到同一个LUI,相对的Common Cold则被指定为另一个LUI。而检视Term identifier时,根据语词含义,再分别指引到所属含义的CUIs,其中Cold因语义模糊,所以被指引到二个Concept identifier,系统以此方式解决同一字符串不同内涵会被错误指引的问题。然而在以后的版本中,有关处理同形异义的问题,可能会采用限定词的方式,如“cold(temperature)”,“cold(disease)”等。2020/11/318FIGURE 2.Concepts(CUIs)Concepts(CUIs)Terms(LUIs)Terms(LUIs)Strings(SUIs
16、)Strings(SUIs)C0009264C0009264 cold temperaturecold temperatureL0215040 L0215040 cold temperaturecold temperatureS0288775S0288775 cold temperatureL0009264 L0009264 Cold Cold ColdColdS0007170S0007170 Cold S0026353S0026353 ColdC0009443 C0009443 Common ColdCommon ColdL0009443 Common ColdS0026747S002674
17、7 Common ColdL0009264 Cold ColdS0007171S0007171 Cold S0026353S0026353 Cold2020/11/319不同概念间关联的建立 n在Meta中展示了不同概念间的各种关系,而这些关系的建立,有些是取自原有的索引表架构,有些则是在建构Meta时所赋与的。例如“Atrial Fibrillation”(心房纤维颤动)和“Arrhythmia”(心律失常)在MeSH中是以层级架构来展示二词间的隶属关系。但“Atrial Fibrillation”在本质上也是一种“Arrhythmia”在MeSH中却没有被展现,此即Meta在建构时所新添的
18、关系。另外,有时也会有来自其它索引典所建立起来的概念关系应用到Meta上。例如概念词“Paroxysmal Atrial Fibrillation”(阵发性心房纤维颤动)在Meta中被指引为“Atrial Fibrillation”的下位词(Narrowed term),即是取自MeSH,ICD-9,SNOMED等索引表中所建立的架构。2020/11/320SNOMED(Systemized Nomenclature of Medicine)n是UMLS的重要子集:文献选用Mesh,而临床术语多选自本系统。SNOMED已经发展了超过20年,它包括解剖学、形态学、正常与非正常的功能、症状及疾病体
19、症、化学制品、药品、酶及其它体蛋白、活有机体、物理因素、空间关系、职业、社会环境、疾病/诊断和操作。SNOMED的每一个术语(词条)均有一个编码与之对应,在疾病/诊断轴内,很多疾病概念还提供了与其它术语的交叉参照关系。1999年2月以来在美国已经有30多家单位开始试验使用SNOMEDRT的测试版,每个单位都有其测试的重点,例如,数据的采集,数据的提取,或者聚合分析等应用。2020/11/321关系指向的处理程序 n在不同的索引表间建立关联主要会牵涉到二个问题:n一是选用语的取决;n另一是如何把不同索引表中相同概念的语词串连在一起。n要想把来自不同索引表中表达相同概念的语词串连起来,就必须运用到
20、“关系移转”的逻辑观念。n如果A是B的同义词,而B是C的同义词,那么我们可以推论A和C应该也具有同义的关系。2020/11/322(2)语义网络 n语义网络是为建立概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供了语义类型、语义关系和语义结构。2002年版的语义网络包括了134种语义类型和54种语义关系。n超级叙词表中的每一个概念至少被标引一种语义类型。语义类型是通过计算机程序指定的或在人工复审过程中增加的,它既是超级叙词表与语义网络之间的连接,也是超级叙词表与情报源图谱(ISM)的连接之一。语义网络为超级叙词表提供了指定给每一个概念至少一种语义类型的信息,同时语义类型也指定给
21、情报源图谱中特定的数据库,以表达情报资源之间的内在联系。UMLS的语义网络不仅运用了常规的语义控制手段,如语义等级、属分、相关关系控制,而且在语义规范和语义关系分析、延伸等多方面有许多创新。语义网络是试图建立一种语义类型及其相互关系的权威规则,用以标引每一个超级叙词概念,或表达概念之间可能存在的相互关系。语义网络的这种权威规则,既在文字上,也从等级关系或非等级关系上界定语义类型及其相互间可能存在的关系与内在涵义。2020/11/323n1)语义结构:n目前语义类型主要分为生物体、解剖结构、生物功能、化学、事件、客观物体、概念和观念等。这些语义类型的高层分为“物”和“事”两大类,并由此层层展开形
22、成“树形结构”。n由全部语义类型形成的等级结构中,每一语义类型除有一个树状等级号之外,还被赋予一个语义类型代码,如T071、T001等,这些代码并无实质上的含义。2020/11/3242020/11/3252020/11/3262020/11/3272)语义关系链:n将语义类型连结成为语义网络。在UMLS语义网络中,语义类型可以看成是有层次结构的“节点”,而把这些节点连成网的连接,称为“链”(Link),“链”所表达的是语义类型之间的“关系”(Relationship)。这种“链”可分为两类:等级关系链(H)is a 一种。上、下位概念。相关关系链(R):分为五大类,物理上相关(physica
23、lly-related-to),空间上相关(spatially-related-to),功能上相关(functionally-related-to),时间上相关(temporally-related-to)和概念上相关(conceptully-related-to)共53种。2020/11/328H.H.等级关系链等级关系链isaisaR.R.相关关系链相关关系链(1 1)物理上相关)物理上相关1.1.的部分的部分2.2.由由组成组成3.3.包含包含4.4.与与相连相连5.5.分开分开(2.2.)空间上相关)空间上相关1.1.位于位于2.2.与与相邻相邻3.3.包围,周围包围,周围4.4.穿过
24、穿过(3 3)功能上相关)功能上相关1.1.影响影响1.11.1管理管理1.21.2治疗治疗1.31.3干扰干扰1.41.4并发并发1.51.5与与相互作用相互作用1.61.6预防预防2.2.带来、造成带来、造成 2.1 2.1产生产生 2.2 2.2引起引起3.3.执行执行 3.1 3.1实施实施 3.2 3.2展示展示 3.3 3.3练习练习4.4.发生于发生于情况下情况下 4.1.4.1.的进程的进程5.5.使用使用6.6.现象表达现象表达7.7.证实证实8.8.的结果、效果的结果、效果(4 4)时间上相关)时间上相关1.1.与与同时发生同时发生2.2.先于先于发生发生(5 5)概念上相
25、关)概念上相关1.1.的评价的评价2.2.的程度、等级的程度、等级3.3.分析分析 3.1 3.1分析评估分析评估的影响的影响4.4.的测量值的测量值5.5.测量测量6.6.诊断诊断7.7.的特性的特性8.8.衍生的衍生的9.9.的发育阶段的发育阶段10.10.的方法的方法11.11.的概念部分的概念部分12.12.之中的焦点问题之中的焦点问题2020/11/329n例:2020/11/3302020/11/3312020/11/3322020/11/3332020/11/3342020/11/3352020/11/336语义关系的等级继承规则和继承阻断 n在语义类型等级结构的高层节点之间的语
26、义关系,在任何可能的情况下都是固定的,正如上例所列举的语义关系“影响”链接的这些高层语义类型节点。而且高层语义类型之间的语义关系,一般地可通过等级结构(isa链)继承给这些节点的所有子类。n在有些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系的连接产生歧义。例如,语义关系“的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而植物也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显然,植物不可能有“心理过程”。不能继承的链称为阻断。2020/11/3373)语义网络使概念之间语义关系的准确细致表达
27、MeSH树状范围表所表达的MeSH上位词与下位词之间的关系,只是简单的较泛指与较专指关系。例如,MeSH“羊水”(Amnioticfluid)是MeSH“胚胎”(Embryo)的一个下位词:EmbryoA16.254AmnioticfluidA16.254.72在UMLS语义网络中,Embryo标引的语义类型是“胚胎结构”(Embryonicstructure),Amnioticfluid标引的语义类型是“机体物质”(BodySubstance),语义关系标引的是“周围”(Surround)。所以“羊水”与“胚胎”之间的关系就被确切地表达为“胚胎结构周围的机体物质”。2020/11/338(3
28、)情报源图谱 n情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络实现以下功能:理解情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息。自动链接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。n 1998年版的情报源图谱(ISM)数据库包括了71个情报源数据库,其中56个是NLM开发和维护的,15个是其他机构或个人开发的。这些情报源多种多样,不仅涵盖生物医学研究、临床实践和生物伦理学的主要书目数据库,而且包括AI/RHEUM、DXplain、QMR等专家系统,还包括来自医学史联机图像库、可视
29、化人类计划等图像数据库,以及有关遗传学、蛋白质和核酸序列、药物、毒物学、环境卫生的事实数据库。2020/11/339(4)专家词典:n专家词典是一个包含众多生物医学词汇的英语词典。它是在美国国立医学图书馆自然语言处理专家系统项目基础上开发出来的。2001年版的专家词典约有140,000条词汇记录。n每条词汇记录均记录了它的句法、词法和字法信息。词条由词或词组组成。所有词条均共享它们的基本形式和拼写变异。词的基本形式包括词的不变形式、名词的单数形式、动词的原形以及形容词和副词的原级形式。n词汇信息包括句法分类、词形变异以及词的补充成份。词形变异有名词的单复形式、动词n的规则与不规则变化形式、形容
30、词和副词的原级、比较级、最高级形式等。专家词典能识别11种句法分类和引语部分:动词、名词、形容词、副词、助词、语气词、代词、介词、连词、补语、定语。n专家词典包括一组词典程序,它们可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异。2020/11/340三、UMLS开发原则n1)多学科、多研究小组协同开发原则 UMLS是一项规模宏大而又相当复杂的长期研究和开发项目,需要多学科专家、多研究小组参与协作研究。所以美国国立医学图书馆内部成立了一个多学科研究小组,同时以竞争和合同方式组织了许多以全美各地大学为基础的医学情报研究小组。n2)集中开发与分散开发相结合的原则 UMLS的研究小组集中
31、开发、维护和修订其产品,同时向广大用户分发其产品。只要用户同意向NLM提供反馈信息以及遵守其版权,即可免费获得。2020/11/3412020/11/3422020/11/3432020/11/3442020/11/3452020/11/3462020/11/3472020/11/348Narrower Concepts:None found.Broader Concepts:None found.Other Related Concepts:None found.Similar Concepts:None found.Related and Possibly Synonymous Conce
32、pts:None found.Source Asserted Synonymous Concepts:None found.Allowable Subheadings:historyAssociated Expressions:None found.Locator Information:ISN:MBD02Frequency:6Frequency Note:*CITATIONSSUI:S0721347ISN:MED02Frequency:15Frequency Note:*CITATIONSSUI:S0721347Co-occurring MeSH Terms:3 Medicine,Chine
33、se Traditional 3 Holistic Nursing 2 Drugs,Chinese Herbal 2 Galvanic Skin Response 2 Therapeutic Touch 1 Acupuncture Therapy 1 Asian Americans 1 BCG Vaccine 1 Brain 1 Coronary Disease 1 Cytotoxicity,Immunologic 1 Duodenal Ulcer 1 Electroencephalography 1 Interior Design and Furnishings 1 Killer Cells
34、,Natural 1 MMPI 1 Neoplasms 1 Neutrophils 1 Nurse Clinicians 1 Pain 1 Pancreas 1 Patient Acceptance of Health Care 1 Peas 1 Personality 1 Phagocytosis 1 Photography 1 Polymorphism(Genetics)1 Psychotic Disorders 1 Robotics 1 Stomach Ulcer 1 Wheat 1 Models,Nursing 1 T-Lymphocyte Subsets 1 Yin-Yang 1 U
35、ltrasonography,Doppler,Transcranial 1 Acupressure 1 Lung Diseases,Obstructive 1 Complementary therapies 2020/11/349UMLS Processing Morphology Inflection DerivationOrthography Spelling variantsSyntax ComplementationSpecialist LexiconInflect變化字形變化字形Normalize正規化正規化Derivate衍生語衍生語Synonyms同義字同義字InputTermO
36、utput TermLex ItemMetathesaurusSemanticNetwork60Vocabularies800,000ConceptNaturalLanguageProcessingAutomatedIndexing Search語意分類語意分類系統系統語意層級語意層級關係關係關係連結關係連結語意繼承語意繼承UISementic TypeDefinition2020/11/350UMLS search norm Normalized string indexNormalized word indexMetathesaurus ConceptsQueryNormed termSUISMetathesaurus Concepts that match The normalized query2020/11/351