1、第第2 2章章 Web2.0Web2.0信息组织研究信息组织研究第1节 Web2.01 web2.0的概念与特征(1)web2.0的概念 Web2.0是第2代因特网的简称,是互联网新的理念和思想体系的结晶,由原来的自上而下网站为主导的集中控制的互联网转变为自下而上的由用户为主导的互联网体系。其内在的动力来源是将互联网的主导权交还个人,从而充分发掘了个人的积极性,并参与到网络活动中来。(2 2)web2.0web2.0的信息组织特征的信息组织特征互联网成为平台或用户参与体系(非统治和控制的)充分重视并利用用户的集体力量和智慧;用户数据成为因特网内存;用户由接受者变为制造者和传播者。分享和参与的网
2、络架构和网络效应;通过带动分散的、独立的开发者把各个系统和网站组合形成集成资源体系的能力;通过内容和服务的联合使轻量级的业务模型可行,并分享经济的模式;注重用户体验的持续的服务;服务和应用无处不在(非单机版和单一平台版本);由少数重要用户扩展到全体用户,包括大量的普通用户,要有拉动长尾的能力。.(3 3)web2.0web2.0的信息组织特征的信息组织特征从信息组织角度总结WEB2.0的几个特征参与性:用户中心,个人深度参与,即用户创造、发布、传播、修改、使用信息;自组织性:人与人、内容与内容、群体与群体以自组织方式形成结构;开放性:开放软件(API)或服务,开放版权,如GOOGLE的MAP,
3、维基百科按GNU的自由文档许可证(GFDL)就是反版权的,可以自由获取、修改、复制、甚至销售。部分内容也是开放的、真实的(反虚拟的),如用户照片共享、部分内容开放。(2 2)web2.0web2.0的特征的特征2 2 聚合性:web2.0 是使用标准化协议(RSS、RDF、Atom)的网站内容和服务的聚合,允许用户同时利用一个甚至跨站资源和服务。这些协议都是基于XML的。微内容:web2.0将信息内容分解成很小的单元(类似数据元、知识元、信息元)。一篇文章、一条评论、图片、书签、认识的人等都是微内容。2 web2.02 web2.0对信息组织的影响对信息组织的影响web2.0促进信息组织观念的
4、改变1)由专家到大众:folksonomy的兴起;2)主动:“主动”是指“以用户个人为中心”,以个性化为核心价值的个人时代,每个人深度参与到互联网中,并彼此相连;3)互动:“互动是指“以自组织为中心”,个人与个人之间,个人创造的内容与内容之间,以及个人组成的群体与群体之间,都以不同的自组织方式联结起来,以自组织的方式让人、内容和应用等充分活动起来。4)由受控标引到自由标引;(2)web2.0改变了信息组织模式1)个性化;强调资源特点和组织方式的独特性;2)个人化:以用户个人资源为基本组织对象;3)兴趣化:以用户群的兴趣为信息组织目标;4)分群化:用户群围绕标签(tags)Users,tags,
5、tagging,resources成为研究大众分类法语义的主要模型,并形成资源与组织资源;5)以人物为重要信息组织对象,名人、热点人物等成为资源组织的标识,粉丝围绕名人或中心人物形成资源结构与组织结构;6)资源与用户的匹配更加有效,一般地,用户拥有的资源比传统方法更关切和有兴趣。Web2.0的聚合技术:一是内容聚合(Mashup 混搭),包括网站内和网际内容聚合;当你查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。第二节第二节 web2.0web2.0的信息组
6、织类型的信息组织类型1 博客(Blog)信息组织 博客是个人或群体不断更新的、按时间顺序形成的一种思想、活动、事件等的记录。博客的作用是快速发布观点、体会、新闻或日常记录等,并通过回溯(TrackBack)和评论(comment)进行交流,展示用户的个性。博客的主要组织技术是内容聚合。聚合技术包括三个方面:一是内容聚合(Mashup 混搭),包括网站内和网际内容聚合;当查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。用户可以通过聚合软件订阅感兴趣的博客,追踪更
7、新。作者可以利用聚合让电脑理解并摘要自己的文章。2)博客信息组织的主要特点是:以用户个人为中心,作为组织用户博客的基本单位,并以日期为个人资源排序的次要标准;用用户个人选取(或标注)的标签作为个人相关内容资源集中在一起(当检索时)以标签聚合技术把相关知识集成在一起(站内或跨站的);基于知识共享、互动、交流,即基于服务的信息组织模式;用户的评论(反对、赞成、补充、修正等)丰富了资源的多方面内容;在效果上,微内容、交流和围绕问题或工作形成资源结构,提高了信息组织的质量和针对性。2 2 维基(维基(WikiWiki,有人译成威客或维客)的信息组织,有人译成威客或维客)的信息组织Wiki源于夏威夷语源
8、于夏威夷语wee kee wee kee,意为,意为“快点快点快快点点”。维基是由一种支持面向社群协作式写作的超。维基是由一种支持面向社群协作式写作的超文本系统和辅助工具。它颠覆了信息写作者和使用文本系统和辅助工具。它颠覆了信息写作者和使用者的旧模式,开创了一种基于用户自由写作的开放者的旧模式,开创了一种基于用户自由写作的开放模式。模式。1995年,沃德年,沃德.坎宁安坎宁安(Ward Cunningham)建立了世界上首个建立了世界上首个Wiki系统系统,并用它建立了波特,并用它建立了波特兰模式知识库(兰模式知识库(Portland Pattern Repository),),从从19962
9、000,这个库开发了很多辅助工具,对,这个库开发了很多辅助工具,对Wiki系统的协同写作进行支持。从而形成了维基模系统的协同写作进行支持。从而形成了维基模式。式。维基的信息组织方式集体知识。Wiki是一个集体创作的网络公共知识库,是网民的集体智慧形成的人类知识的网络系统。维基可以构建网络百科全书,形成专门(领域)知识结构(如讨论菜谱、剧本创作、服装设计等)。知识分享。可以帮助用户分享和利用社群内某个领域的知识,用户对维基内容有很大的权力,可以阅读、下载、创建和修改文本,自由开放度很高。发布简便、内容开放是它的重要优势;此外它还具有可增长、自组织、可观察的特点。动态性、个人性与分群化的结构。Wi
10、ki又是一个动态的个人或群体的协作工具,要具有群体共识才能积累大家认同的知识。维基百科的信息组织特点是:维基百科的信息组织特点是:多元化的组织方法(从不同角度组织知识);多元化的组织方法(从不同角度组织知识);严谨的分类系统;严谨的分类系统;字顺系统。字顺系统。目前目前Wiki系统最成功的应用是维基百科系统最成功的应用是维基百科(Wikipedia)。2001年,一个小型互联网公司(年,一个小型互联网公司(Bomis)的)的CEO保尔保尔.威尔士和威尔士和Larry Stanger推出了维基百科,推出了维基百科,2006年已有年已有120多处语种的版本,多处语种的版本,200多万个词多万个词条
11、,成为全球点击率最高的条,成为全球点击率最高的50个网站之一。个网站之一。3 3 网摘(网摘(Social BookmarkSocial Bookmark,社会书签),社会书签)网摘实际上是一个网络海量收藏夹,它基于个人网摘实际上是一个网络海量收藏夹,它基于个人收藏、积累,然后成为集体收藏和共享,随着用收藏、积累,然后成为集体收藏和共享,随着用户增加和收藏的网址增加,大规模的资源积聚和户增加和收藏的网址增加,大规模的资源积聚和知识分类就形成了。所以,网摘本质上是一个随知识分类就形成了。所以,网摘本质上是一个随着用户增多和网址数量的积累,而成长起来的信着用户增多和网址数量的积累,而成长起来的信息
12、息/知识性汇集系统。知识性汇集系统。网摘是一个积累性的信息网摘是一个积累性的信息/知识收藏、分类、排知识收藏、分类、排序、分享网络资源的服务工具。序、分享网络资源的服务工具。网摘的组织方式网摘的组织方式1)按标签聚合相同内容的网址。)按标签聚合相同内容的网址。它存储网址和相关信息列表,再用标签对网址编制它存储网址和相关信息列表,再用标签对网址编制分类索引,标签是一个聚类符号,用户按标签查分类索引,标签是一个聚类符号,用户按标签查找有用的信息,进行分享和交流。所以又叫分众找有用的信息,进行分享和交流。所以又叫分众分类法(分类法(Folksonomy)。如博客网摘就克服了)。如博客网摘就克服了个人
13、视野的限制,通过网摘让读者评个人视野的限制,通过网摘让读者评论,从而形成各种观点和内容的汇集,使用户和内论,从而形成各种观点和内容的汇集,使用户和内容都实现了按问题或兴趣分群的功能,是一种信容都实现了按问题或兴趣分群的功能,是一种信息组织方式的创新。这种组织方式的针对性、有息组织方式的创新。这种组织方式的针对性、有效性和全面性都是过去没有的。效性和全面性都是过去没有的。网摘的主要作用是:分享;标签聚类和查询以形成网摘的主要作用是:分享;标签聚类和查询以形成知识体系;形成共同兴趣的交流群,实现沟通、知识体系;形成共同兴趣的交流群,实现沟通、表达、提高知识水平的社会功能。表达、提高知识水平的社会功
14、能。2)以个人选择与群体选择形成基于不同兴趣的资)以个人选择与群体选择形成基于不同兴趣的资源结构。底层是个人选择,相同的个人选择形成源结构。底层是个人选择,相同的个人选择形成相同兴趣的用户群,不同的用户群就是不同知识相同兴趣的用户群,不同的用户群就是不同知识资源群。资源群。3)个人选择与群体选择是对海量资源的内容选择)个人选择与群体选择是对海量资源的内容选择与质量选择,选择的结果是网摘质量的提高和基与质量选择,选择的结果是网摘质量的提高和基于标签的不同内容集合,不同标签形成不同知识于标签的不同内容集合,不同标签形成不同知识分类或内容分类。分类或内容分类。4)基于积累资源收集和结构形成过程。)基
15、于积累资源收集和结构形成过程。4 4 内容聚合(内容聚合(RSSRSS)RSS源于网景通讯公司的推送(源于网景通讯公司的推送(push)技术,是一)技术,是一个共享新闻和网络内容的数据交换规范。个共享新闻和网络内容的数据交换规范。RSS有三种解释:有三种解释:Really Simple Syndication(真(真 正简单聚合);正简单聚合);RDF(Resource Description Framework)Site Summary(RDF站点摘要);站点摘要);Rich Site summary(丰富站点摘要)。(丰富站点摘要)。RSS广泛应用于新闻、博客、维基的内容或频道订阅。广泛应
16、用于新闻、博客、维基的内容或频道订阅。RSS的信息组织方式:的信息组织方式:推推-拉式:用户主动订阅,网站自动推送;用户也可以通过增拉式:用户主动订阅,网站自动推送;用户也可以通过增添(拉)阅读到的精彩内容。添(拉)阅读到的精彩内容。个人性:所有的内容都是个人订阅的,内容与个人兴趣、需个人性:所有的内容都是个人订阅的,内容与个人兴趣、需要密切相关;要密切相关;即时性,各种更新都是即时的;内容可以随时更新和增加。即时性,各种更新都是即时的;内容可以随时更新和增加。易用性:只要粘贴易用性:只要粘贴RSS网址即可完成订阅和退订;网址即可完成订阅和退订;内容聚合性:内容聚合性:RSS标准可以把博客、维
17、基、搜索引擎、标准可以把博客、维基、搜索引擎、在线新闻、商业信息等的内容聚合在一起。在线新闻、商业信息等的内容聚合在一起。5 社会性网络(社会性网络(SNS)的信息组织)的信息组织SNS理念源于美国社会会心理学家米尔格伦理念源于美国社会会心理学家米尔格伦(Stanley Milgram)在)在1967年提出的六度分割理论:年提出的六度分割理论:“你和任何一个陌生人之间所间隔的人不会超过六个,你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就会认识任何陌生人。也就是说,最多通过六个人你就会认识任何陌生人。”按照这个理论,每个人的社交圈都不断放大,最后形按照这个理论,每个人
18、的社交圈都不断放大,最后形成一个大型社交网络成一个大型社交网络SNS。SNS的核心价值是社交无限化,即假如人均交友的核心价值是社交无限化,即假如人均交友260人,六度就是人,六度就是2605 5=1=1万万1 1千多亿。在千多亿。在web2.0web2.0中,中,用户的交际工具有博客、播客、自己维护的维基、用户的交际工具有博客、播客、自己维护的维基、网摘和社会性网络等。可以通过标签、网摘和社会性网络等。可以通过标签、RSSRSS、邮件等、邮件等实现广泛的沟通交流。方式是朋友的朋友实现滚雪实现广泛的沟通交流。方式是朋友的朋友实现滚雪球式发展。球式发展。其次是社交垂直化(即按问题或兴趣形成社会性网
19、其次是社交垂直化(即按问题或兴趣形成社会性网络),可以带来物质和精神方面的利益和效应。络),可以带来物质和精神方面的利益和效应。SNS的信息组织方式的信息组织方式1)基于交流的信息组织。交流驱动的知识生产机)基于交流的信息组织。交流驱动的知识生产机制和资源形成机制以及结构,基于多样化的交流制和资源形成机制以及结构,基于多样化的交流内容,形成了不同的社群和动态的资源结构。内容,形成了不同的社群和动态的资源结构。2)基于兴趣和问题的知识(或资源)结构,即所)基于兴趣和问题的知识(或资源)结构,即所谓垂直化的社交群。谓垂直化的社交群。3)多样化的互动社交群体组织模式(本身也形成)多样化的互动社交群体
20、组织模式(本身也形成了多元、动态的资源或知识结构)。基于知识、了多元、动态的资源或知识结构)。基于知识、信息、交友、婚姻、问题、活动等交流内容。信息、交友、婚姻、问题、活动等交流内容。第三节第三节web2.0web2.0的信息组织方法的信息组织方法1 标签与标签云(标签与标签云(tag and tag cloud)(1)标签与标签云的含义标签与标签云的含义标签(标签(tag)是用户标注个人或相关资源的符号。是用户标注个人或相关资源的符号。是目前是目前web2.0网站广泛使用的资源组织方法网站广泛使用的资源组织方法.标签云(标签云(tags clouds或或 label clouds)是一个集是
21、一个集合用户标签的简洁的聚合工具,一般按字顺和权重合用户标签的简洁的聚合工具,一般按字顺和权重(重要性)组织起来,用字体大小显示各个标签的价(重要性)组织起来,用字体大小显示各个标签的价值,是一个广受用户欢迎的查询窗口。值,是一个广受用户欢迎的查询窗口。标签云图标签云图护肤护肤 心情心情 郭敬明郭敬明 网站网站 美白美白 BapeBape 鸡蛋鸡蛋 LOVELOVE 街拍街拍 自行车自行车 绿色绿色 农村农村 毕业毕业 英语学英语学习习 珠宝珠宝 设计设计 坚强坚强 广告广告 手工手工 友情友情 励志励志 事实事实 搭配搭配 悲哀悲哀 人生人生 母亲母亲 想法想法 完美完美 猫猫 自自然然 S
22、toryStory 家教家教 YouTubeYouTube 标签标签:关键字关键字 汽车汽车 眼霜眼霜 IndieIndie 简约简约 老友记老友记 广播剧广播剧 丰丰胸胸 灵异灵异 LondonLondon andand collegecollege twittertwitter 基金基金 WOWWOW 教程教程 poppop blogbus的标签云 来源来源来源:2009-10-08:2009-10-08标签云实例标签云实例(2)标签云的特点:)标签云的特点:1)检索窗口。)检索窗口。标签云是一个标签云是一个查询窗口查询窗口,它把符合一定阈,它把符合一定阈值的标签聚合一起,按字顺排列,然后
23、按每个标签的资源值的标签聚合一起,按字顺排列,然后按每个标签的资源数量(即标签的使用频率)决定标签的字体大小,代表它数量(即标签的使用频率)决定标签的字体大小,代表它的权重(即重要性或流行性),用户点击标签就可以以浏的权重(即重要性或流行性),用户点击标签就可以以浏览相关的网页资源)。览相关的网页资源)。2)平面结构。平面结构。标签云采用标签云采用平面结构平面结构,词间没有相关关系,词间没有相关关系和等级。这种平面关系简单明晰,便于屏幕上的平面浏览,和等级。这种平面关系简单明晰,便于屏幕上的平面浏览,适应小型网站的临时性资源组织。适应小型网站的临时性资源组织。3)标签之间)标签之间缺乏成族能力
24、。缺乏成族能力。同义或近义标签无法组织或同义或近义标签无法组织或联系在一起,不能适应大型网站的资源集成组织,小型网联系在一起,不能适应大型网站的资源集成组织,小型网站也不能适应长期积累的大量资源组织。所以它只是一个站也不能适应长期积累的大量资源组织。所以它只是一个类似关键词的松散组织模式类似关键词的松散组织模式,只能适应,只能适应小型网站小型网站的的临时临时资资源组织,这显然不能适应现代信息组织的需要。源组织,这显然不能适应现代信息组织的需要。(3)(3)标签云的聚类方法标签云的聚类方法文件被用户标注(或自动标注)后,相同标签的文件被用户标注(或自动标注)后,相同标签的文件会集中在同一个标签下
25、文件会集中在同一个标签下(一次分类一次分类);用户使用的标签频率用户使用的标签频率越高越高(多),标签在标签云(多),标签在标签云窗口中窗口中字体就越大字体就越大,说明这个标签代表的资源更,说明这个标签代表的资源更重要,它反映了话题的流行程度。相反,使用频重要,它反映了话题的流行程度。相反,使用频率低的标签在标签云窗口中字体很小,如果低于率低的标签在标签云窗口中字体很小,如果低于某个确定的频率,该标签就会被淘汰而不能进入某个确定的频率,该标签就会被淘汰而不能进入标签云。标签云。标签云聚类示意图标签云聚类示意图标签标注频率标签标注频率计算与选取计算与选取文件集合文件集合标签云标签云标签标签1 1
26、标签标签N相同标签的文档集中相同标签的文档集中(4)(4)标签云的功能标签云的功能 1)组织功能。组织功能。每个每个标签集合同类资源标签集合同类资源;每个标签与一个或几个文件每个标签与一个或几个文件和文件片断和文件片断用用URIURI联系起来联系起来每个标签由用户自由选择与标注,构成一次分类;每个标签由用户自由选择与标注,构成一次分类;标签组织的资源标签组织的资源内容是混合内容是混合的,是基于的,是基于混搭混搭(mashupmashup,又译揉合)技术的。,又译揉合)技术的。MashupMashup技术是一种技术是一种资源与服务的整合工具,是一种按需定制内容和功资源与服务的整合工具,是一种按需
27、定制内容和功能的、用户自我创建内容的信息组织方法。它的特能的、用户自我创建内容的信息组织方法。它的特点是一个页面可以由多个点是一个页面可以由多个APIAPI软件形成聚合内容。软件形成聚合内容。标签云把所有单个标签集合到一个检索界面。标签云把所有单个标签集合到一个检索界面。2)推荐功能推荐功能。推荐工具推荐工具 推荐话题表;推荐话题表;推荐流行性;焦点、热点、排行榜等推荐流行性;焦点、热点、排行榜等 最新资源推荐最新资源推荐;标签云的组织方式具有非常优秀的推荐功能,它首先是一个基标签云的组织方式具有非常优秀的推荐功能,它首先是一个基于用户选择的,用户可以从里面找到最流行的热点话题。实于用户选择的
28、,用户可以从里面找到最流行的热点话题。实际上,标签的频率统计与选取本身就是一个热点资源推荐表。际上,标签的频率统计与选取本身就是一个热点资源推荐表。其次,加红、加重与大字显示是最明显的推荐,它在心理上其次,加红、加重与大字显示是最明显的推荐,它在心理上创造了一种创造了一种“心理排序心理排序”,具有很强的引导用户阅读的功能,具有很强的引导用户阅读的功能,从众心理与别人在看什么的好奇感,具有一种功能非凡的心从众心理与别人在看什么的好奇感,具有一种功能非凡的心理推荐作用。理推荐作用。3)搜索功能搜索功能。标签云首先是一个平面搜索窗口,其功能如一般的搜索引擎一标签云首先是一个平面搜索窗口,其功能如一般
29、的搜索引擎一样,可以迅速地把聚合的资源显示在用户的桌面上。使用混样,可以迅速地把聚合的资源显示在用户的桌面上。使用混搭(搭(Mashup)技术,)技术,web2.0网站的标签云搜索工具查询到网站的标签云搜索工具查询到的资源,大多具有聚合特征,即它是面向问题的知识而不是的资源,大多具有聚合特征,即它是面向问题的知识而不是简单的链接。简单的链接。(5)(5)标签云的问题标签云的问题 1)用户标签的差异用户标签的差异 不同不同用户标注用户标注同一资源同一资源使用的使用的标签差异标签差异性极大,形成难以性极大,形成难以控制的局面。因为各自相异的用户对于相同的资源,具有控制的局面。因为各自相异的用户对于
30、相同的资源,具有完全不同的理解和完全不同的表达。这些都曾是用户标签完全不同的理解和完全不同的表达。这些都曾是用户标签的优势,因为千姿百态的标签有利于反映用户的优势,因为千姿百态的标签有利于反映用户异质化的兴异质化的兴趣趣和和多样化的需求多样化的需求,这对于从不同角度形成资源和利用资,这对于从不同角度形成资源和利用资源,是一个有利条件。然而对于资源组织来说,同一资源源,是一个有利条件。然而对于资源组织来说,同一资源形成多样化的标签却是一件令人棘手的难题。例如,一张形成多样化的标签却是一件令人棘手的难题。例如,一张玫瑰花图片,用户可能用玫瑰花图片,用户可能用“玫瑰玫瑰”、“玫瑰花玫瑰花”、“情人情
31、人节礼物节礼物”、“爱的感情爱的感情”、“爱之心爱之心”等等来表达。这些等等来表达。这些花花绿绿的标签,对于表达用户趣味是十分有利的,但是花花绿绿的标签,对于表达用户趣味是十分有利的,但是对于信息组织却是十分困难的。对于信息组织却是十分困难的。2 2)反长尾理论与资源局限反长尾理论与资源局限 长尾理论的原意是要人们关注长尾的尾部,关注被长尾理论的原意是要人们关注长尾的尾部,关注被忽略的大多数,但是标签云实践却是一个忽略的大多数,但是标签云实践却是一个“反长尾反长尾理论理论”的模型,的模型,为了效率不得不忽略长尾尾部的大为了效率不得不忽略长尾尾部的大部分标签。这在部分标签。这在web2.0web
32、2.0世界中造成一种强大的世界中造成一种强大的从众从众趋势。趋势。流行标签有一种大众化的品质,大量资源和流行标签有一种大众化的品质,大量资源和用户兴趣集中在少量的标签上,忽略大多数社会话用户兴趣集中在少量的标签上,忽略大多数社会话题和少数数用户的兴趣,有时会转移社会关注点,题和少数数用户的兴趣,有时会转移社会关注点,淹没具有异质思维的用户,这十分不利于知识的创淹没具有异质思维的用户,这十分不利于知识的创新。这样形成的资源结构是畸形的,只限于部分活新。这样形成的资源结构是畸形的,只限于部分活跃用户的趣味和一时流行的话题,对于资源长期保跃用户的趣味和一时流行的话题,对于资源长期保存价值来说也是一个
33、挑战。存价值来说也是一个挑战。3)标签成族与集成问题标签成族与集成问题 标签云是一个结构松散的标签云是一个结构松散的平面资源组织工具,适应以每个用户为单元的个平面资源组织工具,适应以每个用户为单元的个人门户网站。但是它很难适应资源结构复杂的大人门户网站。但是它很难适应资源结构复杂的大型网站的信息组织。因为标签云在本质上是一个型网站的信息组织。因为标签云在本质上是一个平面化的资源浏览窗口,可容纳的标签有限。目平面化的资源浏览窗口,可容纳的标签有限。目前,大多数网站采用栏目(或主题树)加局部标前,大多数网站采用栏目(或主题树)加局部标签云的方式解决标签的平面化缺点,大多数博客签云的方式解决标签的平
34、面化缺点,大多数博客仍然以栏目为主,这说明了标签云简单化的仍然以栏目为主,这说明了标签云简单化的“反反结构结构”特征正在限制它的广泛使用。从资源集成特征正在限制它的广泛使用。从资源集成和标签聚类来看,长期积聚的资源不可能用当时和标签聚类来看,长期积聚的资源不可能用当时流行的松散标签来表达,所以大量流行的松散标签来表达,所以大量标签实行集成标签实行集成聚类,形成等级式的主题树聚类,形成等级式的主题树是不可避免的。是不可避免的。2 2 标签之间的聚类标签之间的聚类(1)标签的语义聚类与语用聚类标签的语义聚类与语用聚类 标签云是一个平面化的搜索工具,要克服它的非结构缺陷标签云是一个平面化的搜索工具,
35、要克服它的非结构缺陷的较好措施是实现标签的的较好措施是实现标签的等级聚类等级聚类,即把标签归入到某个,即把标签归入到某个更广义的更广义的“类类”或或“栏目栏目”中,实现中,实现标签的层次化标签的层次化。前一。前一种聚类方法一般按照种聚类方法一般按照“标签标签-二级栏目二级栏目-一级栏目一级栏目”实现标实现标签聚合。如签聚合。如“张爱玲张爱玲”可以属于可以属于“作家作家”或或“文学家文学家”二二级栏目,级栏目,“作家作家”可以属于可以属于“文学文学”一级栏目。后一种聚一级栏目。后一种聚类模式(即标签层次化)可以根据需要把不同的标签分成类模式(即标签层次化)可以根据需要把不同的标签分成等级,如等级
36、,如小团圆小团圆这个书名本身就可以是标签,它可以这个书名本身就可以是标签,它可以属于属于“小说小说”或或“张爱玲作品张爱玲作品”这个上位标签,这个上位标签,“小说小说”又可以属于又可以属于“文学文学”这个一级标签。这个一级标签。聚类方法一般有聚类方法一般有语义聚类和语用聚类语义聚类和语用聚类。语义聚类。语义聚类是词语之间有明晰的意思或意义上的关系或联系;是词语之间有明晰的意思或意义上的关系或联系;语用聚类语用聚类是词语和其他符号因表达或其它需要而是词语和其他符号因表达或其它需要而延伸到应用领域,从而与该领域产生的联系。如延伸到应用领域,从而与该领域产生的联系。如图表示一个词图表示一个词“玫瑰玫
37、瑰”的语义聚类和语用聚类,的语义聚类和语用聚类,这里,用方形图表示语义聚类,用圆形图表示语这里,用方形图表示语义聚类,用圆形图表示语用聚类。用聚类。玫瑰花玫瑰花卉情人节植物节日人文礼物爱感情心理 上面上面 聚类网络既是语义的,又是语用(应用)的,聚类网络既是语义的,又是语用(应用)的,它们形成了一个网状结构,体现了一个标签从语它们形成了一个网状结构,体现了一个标签从语义聚类向语用聚类的延伸情况。义聚类向语用聚类的延伸情况。“玫瑰玫瑰”与与“玫玫瑰花瑰花”既是既是“花卉花卉”、“植物植物”,由此形成语义,由此形成语义网络;它们同时又是社会的、网络;它们同时又是社会的、“人文人文”的符号,的符号,
38、在语用(应用)关系上形成聚类网络。在标签聚在语用(应用)关系上形成聚类网络。在标签聚类中,语用聚类是一个普遍现象,为适应以用户类中,语用聚类是一个普遍现象,为适应以用户为中心的标签聚类或资源聚合开辟了一条新路径。为中心的标签聚类或资源聚合开辟了一条新路径。基于以上考虑,我们把标签的一般聚类分为两大类型:基于以上考虑,我们把标签的一般聚类分为两大类型:语语义聚类与语用聚类。义聚类与语用聚类。语义聚类的特征是语义聚类的特征是根据标签之间的意根据标签之间的意义(由人类认识的事物关系结构赋予事物集合以一定的层义(由人类认识的事物关系结构赋予事物集合以一定的层次)联系实现聚类,次)联系实现聚类,由标签聚
39、类代表的资源实现网页资源由标签聚类代表的资源实现网页资源的意义集合。语义聚类一般的意义集合。语义聚类一般按事物分类系统按事物分类系统(如植物分类(如植物分类等)表达事物间的联系或等)表达事物间的联系或结构结构,因而符合人类的认识规律,因而符合人类的认识规律和认知原则,从而按此规律或原则实现快速地查询。和认知原则,从而按此规律或原则实现快速地查询。语用语用聚类则是一种基于应用的聚类方法,它考虑的基点是资源聚类则是一种基于应用的聚类方法,它考虑的基点是资源在应用上联系而不是语义上的联系。在应用上联系而不是语义上的联系。如如“玫瑰花玫瑰花”用标签用标签“情人节情人节”、“礼物礼物”两个标签标注,就是
40、语用聚类,它两个标签标注,就是语用聚类,它不考虑不考虑“玫瑰花玫瑰花”的的“花卉花卉”、“植物植物”等符合认识规律等符合认识规律的语义联系,而是考虑它作为礼物符号的作用方面。在这的语义联系,而是考虑它作为礼物符号的作用方面。在这里,语用聚类把玫瑰花作为一个社会性的表达符号,也是里,语用聚类把玫瑰花作为一个社会性的表达符号,也是用户感情的表达符号。这样,用户感情的表达符号。这样,“玫瑰花玫瑰花”就冲破了它的语就冲破了它的语义范畴,延伸到它的应用阈。而应用阈是不确定的,所以义范畴,延伸到它的应用阈。而应用阈是不确定的,所以这种聚类情况复杂,因为这种聚类情况复杂,因为“玫瑰花玫瑰花”也可以应用于装饰
41、的也可以应用于装饰的符号等等。所以语用聚类在很大程度上随不同用户的表达符号等等。所以语用聚类在很大程度上随不同用户的表达需要和其他需要而定。需要和其他需要而定。2 2 标签之间的聚类续标签之间的聚类续(2)标签之间的聚类结构标签之间的聚类结构 不管是标签的语义聚类或语用聚类,其结构都是基本相同不管是标签的语义聚类或语用聚类,其结构都是基本相同的。因为语义和语用聚类都形成基本相同的一般性层次化的。因为语义和语用聚类都形成基本相同的一般性层次化结构,即它们都是一种基于符号类型划分的框架性组织模结构,即它们都是一种基于符号类型划分的框架性组织模式。这种结构的共同特点是式。这种结构的共同特点是等级性的
42、事物集合分层等级性的事物集合分层,通常,通常使用使用内涵包容式内涵包容式(代表事物的上位符号)或(代表事物的上位符号)或外延归属式外延归属式(代表事物的下位符号)来形成类集。符号(标签即是一(代表事物的下位符号)来形成类集。符号(标签即是一种符号)等级代表事物(或资源)等级,每个等级的划分种符号)等级代表事物(或资源)等级,每个等级的划分形成层次性的、意义相近的可选资源窗口(每个标签代表形成层次性的、意义相近的可选资源窗口(每个标签代表一个类型的窗口)供用户选择阅读。一个类型的窗口)供用户选择阅读。标签聚类结构的目标就是首先实现具有相同标签的资源聚标签聚类结构的目标就是首先实现具有相同标签的资
43、源聚合在一起;其次标签之间再形成不同的等级,若干个可以合在一起;其次标签之间再形成不同的等级,若干个可以包涵在上位标签(或栏目、频道)的下位标签排列在一起,包涵在上位标签(或栏目、频道)的下位标签排列在一起,依次类推,从而形成层次化的集成组织结构。依次类推,从而形成层次化的集成组织结构。标签聚类的三级结构示意图标签聚类的三级结构示意图文件文件集合集合标签词标签词频统计频统计标签云标签云栏目或栏目或频道频道一级结构:以单一级结构:以单个标签为资源聚个标签为资源聚类单位类单位二级结构:以选二级结构:以选择的标签组成平择的标签组成平面检索窗口面检索窗口三级结构:三级结构:结构化的检结构化的检索窗口索
44、窗口3 3 标签的优化控制标签的优化控制 标签云的控制决不能重走专家化的老路,而是要打通标签云的控制决不能重走专家化的老路,而是要打通专家模式专家模式和大众模式和大众模式两个藩篱,吸取两种方法优势,既保存标签云两个藩篱,吸取两种方法优势,既保存标签云大众大众化的优点化的优点,又用控制手段,又用控制手段克服它的缺陷克服它的缺陷。控制的方法仍然是。控制的方法仍然是同同义词优选、相关词关联等义词优选、相关词关联等,但是内容与传统词汇控制方法不同。,但是内容与传统词汇控制方法不同。用户标签优选不同于传统词表中的正式叙词和非正式叙词,叙用户标签优选不同于传统词表中的正式叙词和非正式叙词,叙词表中的同义词
45、优选是基于一般概念的,词汇和资源的关系是词表中的同义词优选是基于一般概念的,词汇和资源的关系是不明确的;而用户标签优选是基于用户标注资源时已经使用的不明确的;而用户标签优选是基于用户标注资源时已经使用的词汇,所以词汇与资源有明确的联系。其次,由于用户标签优词汇,所以词汇与资源有明确的联系。其次,由于用户标签优选时,优选标签与非优选标签都是用户使用的标签,所以选时,优选标签与非优选标签都是用户使用的标签,所以非优非优选标签不是淘汰掉,而是与优选标签联系起来选标签不是淘汰掉,而是与优选标签联系起来。这样,优选标签这样,优选标签不是不是“代替代替”非优选标签,而是非优选标签,而是“代表代表”非优选标
46、签非优选标签。只是在后台数据库中,优选标签才。只是在后台数据库中,优选标签才可可以代替非优选标签,这是为了集中相同内容的资源。以代替非优选标签,这是为了集中相同内容的资源。所以用户标签优选,实际上是所以用户标签优选,实际上是联系(或聚联系(或聚 类)同一类)同一标签的不同形式标签的不同形式,这与同义词的控制虽然道理一,这与同义词的控制虽然道理一样,但是在实质内容上是完全不同的。采用这种方样,但是在实质内容上是完全不同的。采用这种方法,是为了保持标签的用户兴趣与特色,也是为了法,是为了保持标签的用户兴趣与特色,也是为了配合使用相同标签的用户群的标引与查询习惯。配合使用相同标签的用户群的标引与查询
47、习惯。(1)用户标签优选控制的集中模式)用户标签优选控制的集中模式 这种模式采用这种模式采用“用户分散标注用户分散标注-后台集中后台集中-显示集显示集中中”,即同一内容的不同标签全部映射到一个共同即同一内容的不同标签全部映射到一个共同的的后台数据库的唯一标签中,显示页面上出现的内容后台数据库的唯一标签中,显示页面上出现的内容与后台数据库相同。如图所示。与后台数据库相同。如图所示。爱 礼物 玫瑰玫瑰花 情人节心 感情 挚爱 玫瑰用户全部标签数据库中的唯一标签显示内容全 部 关 于“玫瑰”的web文件(2 2)标签优选控制的分散模式)标签优选控制的分散模式 标签优选的分散模式采用标签优选的分散模式
48、采用“用户分散标注用户分散标注后台后台数据库分散存储数据库分散存储镜像映射集中镜像映射集中显示集中显示集中”,即同一内容的网页文件由用户分散标注,后台数即同一内容的网页文件由用户分散标注,后台数据库分散存储,采用镜像索引技术集中各种标签,据库分散存储,采用镜像索引技术集中各种标签,显示内容与镜像索引内容相同。其中关键的技术显示内容与镜像索引内容相同。其中关键的技术是建立镜像索引,其方法同集中模式中的第一和是建立镜像索引,其方法同集中模式中的第一和第二步,即在众多标签中先优选一个代表性的唯第二步,即在众多标签中先优选一个代表性的唯一标签,然后把相关标签映射到索引中。一标签,然后把相关标签映射到索
49、引中。标签优选控制的分散模式示意图标签优选控制的分散模式示意图爱爱 礼物礼物 玫玫瑰瑰 玫瑰花玫瑰花情 人 节情 人 节 心心 感情感情 挚爱挚爱所有标签分散存储用户全部标签数据库中的唯一标签显示内容全 部 关于“玫瑰”的web文件镜像集中镜象索引中的唯一标签(3 3)标签优选控制的特点)标签优选控制的特点 标签优选与叙词处理相比,具有如下特点:标签优选与叙词处理相比,具有如下特点:标签优选只是将同一文件的各种标签之间标签优选只是将同一文件的各种标签之间联系联系起起来,来,不是用优选词代替非优选词不是用优选词代替非优选词;标签优选后,不同的标签(包括非优选词)通过标签优选后,不同的标签(包括非
50、优选词)通过映射仍然可以查询用户标注的文件,而映射仍然可以查询用户标注的文件,而不仅仅是入不仅仅是入口词;口词;标签优选是一种标签优选是一种基于用户标注基于用户标注系统的灵活词汇处系统的灵活词汇处理机制,它不是在既定词表基础上进行的,而是基理机制,它不是在既定词表基础上进行的,而是基于用户服务或趣味的、动态的词语控制方法。所以于用户服务或趣味的、动态的词语控制方法。所以标签控制不是一次决定的,而是连续性的活动。同标签控制不是一次决定的,而是连续性的活动。同时,标签优选基本上是一种在镜像中时,标签优选基本上是一种在镜像中“暂时暂时”的聚的聚类,类,是一种基于用户的处理方式。是一种基于用户的处理方
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。