1、第一讲第一讲 信息资源组织基础信息资源组织基础刘炜元数据与信息资源组织1感谢你的观看2019年5月16第一章第一章 引引 言言2感谢你的观看2019年5月16生活中的信息组织生活中的信息组织 你怎么组织你的 书籍或资料 衣物或任何其他生活杂物 电脑文件 大脑中的信息3感谢你的观看2019年5月16你怎么组织你怎么组织 藏书 按用途:兴趣爱好的(小说、旅游、烹调),学习类的,收藏类,工具书类 按载体:刊物、报纸、图书、画册 按学科或专题:(藏书家) 4感谢你的观看2019年5月16你怎么整理你怎么整理 CD/DVD 按类型:古典、流行、爵士、蓝调.或故事片、文艺片、MTV、动画片、纪录片; 按人
2、物:贝多芬、柴可夫斯基或布鲁斯威利斯、李连杰、007 综合方法 5感谢你的观看2019年5月16你怎么整理你怎么整理 衣物 类型; 季节; 面料; 喜欢程度; 上述综合6感谢你的观看2019年5月16你怎么整理你怎么整理 计算机文件? 你头脑中的信息?7感谢你的观看2019年5月16总结总结 分类方法是人类最本能认识世界的方法,因而也应用于任何资源的组织; 按使用方便(多数是内容)分类而不是按物理顺序(或字顺等)排列; 用于类分事物的性质叫做“属性”,试行分内部属性和外部属性; 不作索引或简单的书本式索引; 凭记忆查找,因而强调助记性。8感谢你的观看2019年5月16总结:信息资源组织常用方法
3、总结:信息资源组织常用方法 分类法 主题法 字顺法 号码法(赋予号码后的字顺法) 时空法(例如大事记,年鉴等) 序列法(大小/多少/好坏/贵贱) 超文本法(链接法)9感谢你的观看2019年5月16相关因素相关因素 信息资源组织与下列因素有关: 信息资源组织的对象是什么? 信息资源组织的目的是什么? 信息资源组织对象有什么显著特性? 如何更方便的使用(达到目的)10感谢你的观看2019年5月16第二章第二章信息资源组织的基本问题信息资源组织的基本问题11感谢你的观看2019年5月16基本问题基本问题 什么是信息? 什么是信息资源? 什么是信息资源组织? 信息资源组织的对象是什么?(数据、信息、知
4、识、智慧及其他相关概念的关系是什么?) 信息资源组织的目的是什么? 信息资源组织的相关应用领域 传统图书馆(博物馆/档案馆)的信息资源组织 现代信息资源组织面临的问题与挑战12感谢你的观看2019年5月16 数据数据:离散、互不关联的客观事实,孤立的文字、数据和符号,缺乏关联和目的性 信息信息:人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关联 知识知识:与行动和决策密切相关,人们做决策的行动能力,知识创造与环境相关 智慧智慧:对事务发展的前瞻性看法,智慧得益于人的内在价值观和信仰什么是数据、信息、知识、智慧13感谢你的观看2019年5月16什么是数据、信息、知识、
5、智慧Data:数据= 没有加工的事实数据对应于人、物理对象、事件或其它实体的原始事实。单独的数据没有意义计算机中表示为数字或其它符号形式(不仅是数字形式。Number强调数字的内容,Digital强调数的形式)例如10000Information:信息= 数据+语境将数据放到一个语境(context)中,从而给予它一定的含义,它就成为信息经过处理的有用的数据,用来回答Who/What/Where/When的问题信息是经人组织的数据组成例如¥10000Knowledge:知识= 信息+判断是一种由人创造的,并且反映他们是如何来进行判断、选择并且采取行动的know-how,知识一般与人们所受的教育
6、、经验、思考方法、决策及其他能力相关。信息被阅读、告知或可视与理解等等例如¥10000是上海外环线附近2005年房产的单价Wisdom:智慧= 知识+整合对知识进行组合、创造以及理解知识要义的能力Wisdom is not a product of schooling but of the lifelong attempt to acquire it. (Albert Einstein)例如”以¥10000的单价购买外环线的房子肯定亏本”文献Document:记录有知识的一切载体。信息资源的一种形式;14感谢你的观看2019年5月16其他有关信息信息的定义信息如同反馈指机器利用其行为造成的结果
7、作为自适应信息以调整自身,作为正在进行的过程的一个部分 维纳控制论1949年Information as feedback-the ability of a machine to use the results of its own performance as self-regulating information and adjust itself as part of its ongoing process -Norbert Weiner, Cybernetics, 1949信息是能够被编码而通过连接信源和信宿的通道进行传输的东西申农1949年Information is whateve
8、r can be coded for transmission through a mechanical channel connecting a source with a receiver-Shannon, 1949“Information is commonly used to denote some population of objects to which some significant probability of being usefully informative in the future has been attributed.” - Buckland, 1991.Un
9、like knowledge or belief “the concept of information has connotations of neutrality-it is homogeneous and noncontroversial. The reality, of course, is more complicated”-Agre, 1995信息是负熵(申农信息论)15感谢你的观看2019年5月16什么是知识?什么是知识? 知识是能够指导思考、行为和交流的正确和真实的观察、经验和过程的总结。知识包含真理和信念,观点和概念,判断和预期,方法和诀窍等内容,也可以理解为用于解决问题的结
10、构化信息。16感谢你的观看2019年5月16Worlds of Knowledge (from Poppers Objective Knowledge) World 1 is the physical world World 2 is subjective knowledge or experience-mental states and processes. World 3 is objective knowledge-recorded knowledge, public knowledge-created by people.17感谢你的观看2019年5月16Knowledge Hiera
11、rchy Source: Karl Sveiby, Tacit Knowledge in KM Yearbook 1999-2000 3 LevelsExpertiseKnow-HowSkillsKnowledgeInformationData18感谢你的观看2019年5月16隐性知识隐性知识显性知识显性知识分散孤立与行动相关前瞻性具有相关性对抗性数据、信息、知识、智慧之间的关系数据、信息、知识、智慧之间的关系 19感谢你的观看2019年5月16知识的类型 事实知识事实知识(Know-what) 原理知识(Know-why) 技能知识技能知识(Know-how) 人力知识人力知识(know-w
12、ho) 检索知识检索知识( know-where )20感谢你的观看2019年5月16再举一例 “8,000 和 10,000- 数据 10,000 米的高山与 8,000 米的飞机飞行最大高度 是信息 “飞机无法飞越这座高山” 是知识 必须飞得比地形高 是智慧 21感谢你的观看2019年5月16什么是信息资源 信息资源即“作为资源的信息”,可以理解为有价值的信息。然而信息的价值是体现在使用中的,对于不同的使用者,信息可以有不同的价值,而且信息的不同组合、不同的关联也能使信息具有不同的价值。这反映了信息的特性:信息是具有语境(context,也译成“上下文”)的数据。 从计算机操作的角度来看,
13、“信息资源是具有标识的任何东西”。其价值由用户去判断。信息资源组织的目的就是以灵活的方式揭示信息之间的关联(包括结构关联和语义关联),满足不同用户的需要,使其成为“资源”。 世间万物,只要人能够识别出来的东西,给它一个标识(最常用的标识就是名称),它就成了“资源” 作为元数据描述的对象,DCMI和W3C强调,其“资源”只是在互联网上,由命名域给出URI标识的实体。22感谢你的观看2019年5月16什么是信息资源组织? 即信息资源的有序化的活动:对于信息资源有序化的规律的认识,以及应用认识得来的规律从事有序化工作 知识组织=信息资源组织 利用一定科学规则和方法,通过对信息外在特征和内容特征的描述
14、和序化,实现无需信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。 信息的外在特征:信息的(物质)载体所直接反应的特征; 信息的内容特征:信息所包含和承载的具体内容,即通过信息载体所传递和交流的具体内容。23感谢你的观看2019年5月16信息资源组织的目的 查找Find 标识Identify 选择Select 获取Obtain 24感谢你的观看2019年5月16信息资源组织体系根据对象区分信息组织的不同领域: 哲学认识论以知识的抽象本质组织知识; 图书情报机构传统上结合实物载体组织信息资源; 数字图书馆以数字化的信息形式组织资源; 情报检索系统可以看成是DL中
15、的一个部分,通过数字化信息内容的各种结构组织资源, 人为标注的结构; 本身的结构被人发现而利用; 企业知识管理围绕企业管理中信息的利用组织资源; 搜索引擎的信息组织; 语义万维网中的信息组织; 其他各种领域知识根据领域的特点组织知识25感谢你的观看2019年5月16图书馆的信息资源组织 图书馆学的目的宗旨:信息资源整序 图书馆工作的组成(采分编典流)的目的 主要方法: 目录学(关于传统图书馆信息组织的科学) 分类法 主题法 文摘与索引 图书编目 无数的经验26感谢你的观看2019年5月16图书馆如何组织/整理图书?由于数量和体积庞大,引入图书代用品:目录卡片;(书、卡的分离图书馆管理上的一大进
16、步。博物馆、档案馆等任何涉及载体管理的机构莫不如此)泥版、羊皮卷、纸莎草、竹简乃至半导体零件、各类仓储物资,在计算机发明之前,卡片目录是最先进管理方式。其意义甚至不亚于结绳记事、文字发明、书籍产生目录是馆藏的缩影和“代用品”;为了达到方便存取的目的,多套目录卡片提供多种查询途径;图书采取唯一方式排架,目录卡片指引到唯一的图书排架号;每种途径反映了图书的某一属性,例如先按载体类型或语种分,再按学科分类,或其他属性分,如著者目录;卡片目录/图书典藏的排列是分类与字顺等多种方式的结合;目录卡片的种类有限,不可能穷尽用户认识的角度和使用需求与习惯;图书是知识的载体,部分目录反映馆藏知识体系,图书馆通过
17、管理知识载体,间接地整理知识。27感谢你的观看2019年5月16图书馆的信息资源组织(续) 连续出版物有一点不同 二次文献(情报)服务有很大不同 电子资源使传统图书馆的信息组织方寸大乱28感谢你的观看2019年5月16信息资源组织面临的数字环境 传统情报检索的挑战 处理单元变为“情报载体”:期刊论文、科研报告、报纸文章、专利文献; 解决方案:文献数据库+原文提供; 数字化浪潮的挑战 处理单元复杂化,包含书本、期刊、论文、报告、以及“事实”、“数据”(传统的事实数据以工具书形式存在) 并且需要整合利用 需要研究信息/知识整个生命周期的完整过程,甚至包括部分认知过程 需要从数据、信息层面上升到“知
18、识”层面 这个过程是正在进行时,随着技术的发展正在变化。29感谢你的观看2019年5月16Collections grid 信息资源类型highlowlowhighStewardship 权威性Uniqueness 稀缺性BooksJournalsNewspapersGov. docsCD, DVDMapsScoresSpecial collectionsArchivesRare booksLocal history materialsArchives & ManuscriptsTheses & dissertationsFreely-accessible web resourcesResea
19、rch and learning materials ePrints/tech reportsLearning objectsCoursewareE-portfoliosResearch dataUntransferred recordsFrom: Lorcan Dempsey30感谢你的观看2019年5月16Web上的信息 Google当前索引80多亿网页,每天平均收到2000万个查询。 中国的公开网页在3-4亿,百度每天大概收到500万个查询 每篇网页的平均大小在12KB左右,于是总共约40TB容量(10年) 人类的1亿种书,每本算10万字,200KB,总共约20TB容量。(5000年)3
20、1感谢你的观看2019年5月16搜索引擎搜索引擎 搜索引擎(Search Engines)是对互联网上的信息资源(主要是网页)进行搜集整理,然后提供查询服务的系统,通常包括信息搜集、信息整理和用户查询三部分,但提供给用户的往往只是一个查询界面。 两类搜索服务 Google Yahoo32感谢你的观看2019年5月16网络信息资源的挑战网络信息资源的挑战 数量巨大数量巨大 没有一个搜索引擎能够覆盖万维网的16% 网站; 所有搜索引擎加起来覆盖了万维网的42% 极端异质极端异质 信息值不同 长度不同 语法或输入错误 内容错误、过时或不可靠 多种格式 多语种 速度问题速度问题 每分钟需要接受15,0
21、00 20,000次查询请求33感谢你的观看2019年5月16数字化信息量举例数字化信息量举例 音乐作品(莫扎特):约100MB 报纸(华尔街杂志):100MB/年(文本) 卡片目录(美国国会图书馆):17GB 广播(WABC) :270GB/年(未经压缩) 网络论坛(Netnews):300GB/年 地区图书馆(加州大学图书馆):1.4TB(图书扫描版) Internet出版(WWW):1997年约4TB 电视(CNN新闻):1GB/1小时, 6TB/年(经压缩) 录像带出租(Blockbuster Video):9TB 科研图书馆(美国会图书馆):全部图书馆数字化20TB来源:美国伯克利加
22、州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著文化制品数字化存档行动纲要。34感谢你的观看2019年5月16信息检索的问题信息检索的问题 查找非结构信息有困难 多数数据库在结构化字段上工作 多数商业信息是非结构化的. 报告、电子邮件、来往公函 . 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重 索引是主观的 索引者之间不一致, 经验统计表明索引者之间仅20% 相同. 作者与索引者之间、检索者与用户之间不一致. 信息超载 信息太多, 需要过滤 检索结果垃圾太多, 有害信息太多 35感谢你的观看2019年5月16拖曳拖曳网网搜索
23、引擎仅在信息海洋表面上拖曳搜索引擎仅在信息海洋表面上拖曳来源:曾民族先生的有关报告36感谢你的观看2019年5月16深海网深海网来源:曾民族先生的有关报告37感谢你的观看2019年5月16深海网深海网 深海网比浅海网大500 倍 95% 深海网是公开的和可免费获取的 深海网内容质量高1000+ 倍 7,500 TB信息量 目前有45,000 浅海网搜索引擎38感谢你的观看2019年5月16信息资源组织成为全球性难题信息资源组织成为全球性难题 信息发布具有自由性和任意性, 难于控制和管理 分布、分散、无序、无政府、经常变动、无限数量、包罗万象、 真伪并存, 资源信息和非资源信息难于驾御 非规范、
24、非结构 检索查全和查准提出新的挑战 多媒体、多语种、多类型信息的整合提出新的挑战 跨国界数据传递和流动, 带来政治、外交、文化新问题 集成多种(正式和非正式等)交流方式39感谢你的观看2019年5月16目前对付挑战的能力有限目前对付挑战的能力有限 以文本信息、显性知识为主 以非结构信息为主 以系统为中心 以信息提供为目的 以相对简单的信息技术开发 以正面效益为衡量标准40感谢你的观看2019年5月16第三章第三章课程的内容框架结构:课程的内容框架结构:信息资源组织模型信息资源组织模型41感谢你的观看2019年5月16信息资源组织系统抽象模型(课程框架)信息资源组织系统抽象模型(课程框架)知识单元特征提取特征建库(索引)资源库提问单元提问处理语义特征:分类/主题/自由词/元数据语用特征载体类型学科内容应用领域狭义/传统知识组织(内容管理)广义/现代知识组织利用方法读者图书馆员结果处理读者特征数字化数字图书馆42感谢你的观看2019年5月16课程内容 信息资源组织的方法 分类法 主题法 元数据方法 知识本体方法 信息资源组织的应用 情报检索 数字图书馆(内容管理) (企业)知识管理43感谢你的观看2019年5月16
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。