1、第四单元数字出版的编辑第九章 数字出版编辑中的网络信息获取与鉴别本章概要1、重点掌握搜索引擎的使用技巧2、重点掌握网络虚假信息及谣言的辨别方法。第九章 数字出版编辑中的网络信息获取与鉴别第一节 搜索引擎第二节 门户网站 第三节 网络虚假信息及谣言辨别第一节 搜索引擎一、搜索引擎的定义搜索引擎(Search Engine)是指在互联网环境中的信息检索系统。第一节 搜索引擎二、搜索引擎的原理搜索引擎的原理,可以看作三步:从互联网从互联网上抓取网页上抓取网页建立索引数据库建立索引数据库在索引数据库中搜索排序。在索引数据库中搜索排序。第一节 搜索引擎三、搜索引擎的类型(一)按查询类型划分搜索引擎按查询
2、类型分为分类型搜索引擎(即范畴层次搜索引擎,List-based Search Engine)和词语型搜索引擎(Words-based Search Engine)两大类。(二)按覆盖范围划分搜索引擎按覆盖范围可分为通用搜索引擎和专业搜索引擎两大类。(三)按引擎功能划分搜索引擎按引擎功能可分为常规搜索引擎和多元搜索引擎(Meta Search Engine)两大类。常规搜索引擎是单一引擎;多元搜索引擎是多个单一引擎的组合,对同一个查询可同时在多个搜索引擎上进行,或组合指定的搜索引擎查询,或在单一搜索引擎上查询,可综合输出查询结果,也可分别输出每个搜索引擎的查询结果。第一节 搜索引擎四、搜索引擎
3、尚待解决的问题(一)缺乏检索词汇控制网络检索工具大都采用自然语言标引和检索,其必然结果是同义词得不到控制,词语间相互关系得不到揭示,最终影响检索效果。而网络信息的数量大、变化大、涉及面广,现有的受控语言难以适应网络信息标引和检索的需要。(二)自动标引有局限性自动标引不可能像人工标引那样进行甄别和选择,而主要依赖关键词词频等标准判断网络文件的价值。为了弥补自动标引所带来的不足,大多数网络检索工具都先后增加了“评论”栏目,由专门的雇员选评各行业和各学科的最佳网络信息。如雅虎的“Cool Sites”,Excite的“Site Reviews”和Lycos的“Top 5%Sites”等都属于这类评论
4、。第一节 搜索引擎(三)缺乏检索专业信息的能力网络检索工具不根据专业划分检索范围,这与传统的检索工具截然不同。每个学科都有自己独特的词汇和用语,因此特定的专业检索工具应该使用与之相应的标引和检索语言,而这一点是包罗万象的网络检索工具难以做到的,所以,需要研制专业网络检索工具。(四)“把关人”缺失由于网络信息的发布存在“把关人”缺失问题,网络上的信息良莠不齐,因此,通过搜索引擎获得的信息,从整体上看缺乏准确性、权威性、科学性,需要用户对信息内容进行甄别。第一节 搜索引擎五、互联网信息检索策略(一)基本检索策略:布尔逻辑检索几乎所有的检索系统都具有布尔检索功能,布尔运算符包括AND、NOT、OR。
5、用“A AND B”进行查询的结果是既包含查询词A又包含查询词B的文章。用“A OR B”进行查询的结果是至少包含A和B中一个查询词的文章。用“A NOT B”进行查询的结果是包含查询词A而不包含查询词B的文章。第一节 搜索引擎(二)范围限定二次检索:对于再次检索,可以重新开始,在整个索引中检索,也可限定在前次检索结果内,优化检索。时间范围(时间限制):雅虎系统设定检索时间范围为最近三年,用户也可在一天到三年的时间范围内进行选择。语言限制:AltaVista可以查询基于25种语言的信息,其中包括英语、日语、汉语、德语等。但是查询时不能用含有双字节的字符(如汉语、日语等)进行查找。如果查找汉语信
6、息,可用英语查找,并将结果限定在汉语中。第一节 搜索引擎(三)智能检索/概念检索Excite使用“智能概念检索”(Intelligent Concept Extraction)技术,通过发现词与概念间存在的关系,会自动加入一些检索词。如我们输入“elderly people financial concerns”,Excite除找出精确匹配这些词的文献外,还会找出有关“economic status of retired people”、“the financial concerns of senior citizens”等节点。第一节 搜索引擎(四)字段限定字段限定指限定词语在文献中出现的部
7、位。大部分系统都可进行字段限定,但是字段的数目和表示方法稍有不同。(五)词语检索在一串词的前后加双引号(“”)或用连字符连接,可限定检索结果中的词语必须以同样的顺序出现且相邻,如“China economic development”。(六)其他字母大小写:有些系统区分字母大小写,如AltaVista、Infoseek;有些系统不区分大小写,如雅虎。名词检索:有些系统对名词检索有特殊规定,Infoseek要求人名或地名的首字母大写,如查找电影明星Rock Hudson,假如不大写首字母,则检索系统还会找出rock climbing、rock music、Hudson River等资料。第一节
8、搜索引擎六、检索结果输出大多数检索遵循以下结果显示原则:(1)匹配的词语数目。匹配的词语越多,相关性越高。(2)文献部位。标题中的词比文本和URL中的词权值高。(3)类目综合度。在雅虎类目等级结构中,综合类比专门类权值高。(4)检索词权值。在数据库中检索词出现的频率越低权值越高。显示格式:大多数系统都可改变显示格式。简短的可只包含标题,详细的可包括标题、摘要、地址、相关度、文件大小等信息。相应地,每页显示的结果数目也会发生改变。第一节 搜索引擎GoogleGoogle的基本搜索简洁方便,在输入查 询 内 容 后 敲 一 下 回 车 键,或 单 击“Google 搜索”按钮即可得到相关资料。Go
9、ogle只会返回那些符合用户全部查询条件的网页,不需要在关键词之间加上“and”或“+”。如果用户想缩小搜索范围,只需输入更多的关键词,在关键词中间留空格即可。Google只返回包含所有关键词的网页,这些网页的正文或指向它的链接包含用户所输入的所有关键词。第二节 门户网站一、门户网站的概念门户网站是指通向某类综合性互联网信息资源并提供有关信息服务的应用系统。从现在的情况来看,门户网站主要提供新闻、搜索引擎、网络接入、聊天室、BBS、免费邮箱、影音资讯、电子商务、网络社区、网络游戏、免费网页空间等。在我国,典型的门户网站有新浪、网易和搜狐等。第二节 门户网站二、门户网站与新闻网站我们今天所谈论的
10、门户与当初雅虎初创时所说的门户已经有了很大的不同。那个时候,大多数网民面对茫茫网海无从下手,正是雅虎这种以提供搜索服务为主的网站扮演了引网民“入门”的角色,成为网民进入互联网的“门户”。将提供新闻服务作为门户网站的主业乃至核心竞争力,这其实只是后来的事情,原本就与门户网站的“本质”或者“正根”没有什么关系。因此,今天在门户问题上,有些网站极力强调新闻业务的重要性,似乎不做新闻甚至少做新闻就是对门户的“背叛”,有些不知所云。相反,简单回顾门户网站的起源和历史,可以让我们清楚地看到,无论是搜索还是新闻,都只是门户网站发展的一个阶段,门户网站可以从搜索服务演进到新闻服务,未必就不能从新闻服务演进到别
11、的什么服务。随着网络媒体的发展,原先的门户网站不一定再将搜索作为主业(如雅虎和搜狐),而提供搜索引擎服务的又不一定非门户网站不可(如百度和Google)。第二节 门户网站从互联网的发展史我们可以看出,目前门户网站通常做新闻业务,而新闻网站的主业则只是新闻业务。第二节 门户网站三、雅虎雅虎是美国著名的互联网门户网站,20世纪末互联网奇迹的创造者之一。其服务包括搜索引擎、电子邮箱、新闻等,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。它同时也是一家全球性的互联网通信、商贸及媒体公司。第二节 门户网站四、新浪新浪由王志东创立,和搜狐、网易、腾讯并称为“中国四大门户”。Sin
12、a一词源于拉丁文的Sino,在拉丁语系中,Sino是“中国”之意,而在古印度语中,Cina也是中国的意思,与英语China(中国)合拼,取名Sina,意为“中国”。新浪是下辖北京新浪、香港新浪、台北新浪、北美新浪等覆盖全球华人社区中文网站的全球最大中文门户网站。新浪的主要频道1新闻中心2体育频道3娱乐频道4科技频道5财经频道6汽车频道7房产频道8游戏频道9女性频道10新浪宽频11新浪 WAP12博客频道13新浪论坛14新浪读书15新浪微博16新浪旅游17其他信息第二节 门户网站五、腾讯腾讯公司成立于1998年11月,是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一
13、。目前其主要产品有IM软件、网络游戏、门户网站以及相关增值产品。第二节 门户网站六、网易网易是中国的主要门户网站之一。网易在开发互联网应用、服务及其他技术方面始终保持中国内业界的领先地位。自1997年6月创立以来,网易曾两次被中国互联网络信息中心评选为中国十佳网站之首。目前网易提供网络游戏、电子邮箱、新闻、博客、搜索引擎、论坛、虚拟社区等服务。2010年,网易营业额达到了57亿元。第二节 门户网站七、搜狐搜狐的主要服务1搜狗(1)搜狗输入法(2)搜狗高速浏览器(3)搜狗搜索2搜狐焦点3 17173中国网游门户4 ChinaRen年轻生态群的生活交流平台5手机搜狐无线互联网门户6新闻频道7公益频
14、道8财经频道9娱乐频道10视频频道第三节 网络虚假信息及谣言辨别一、谣言的概念研究有人类历史以来,就有了谣言。古希腊和古罗马时期人们视谣言为“神谕”,他们通过有形的建筑与无形的文学对谣言女神(法玛,拉丁语Fama)顶礼膜拜。第三节 网络虚假信息及谣言辨别“谣”在我国开始是指徒歌,所谓“曲合乐曰歌,徒歌曰谣”(毛诗故训传),即配上乐曲的韵语是“歌”,而不配乐曲的韵语是“谣”。随后由名词“谣”衍生出动词“造谣”、“传谣”等说法。总体来说此时的“谣”是中性的。经过两千年的演变,在现代汉语中,谣言几乎等同于“恶意”制造与传播的“谎言”。换言之,在现代中文语境下,谣言并没有继承徒歌的意思,只是保留了“造
15、谣、诽谤”之意。参见金屏:谣言:概念反思及其对现代社会的启示,吉林大学硕士学位论文,2005。第三节 网络虚假信息及谣言辨别(一)从史学角度德国学者诺伊鲍尔认为,谣言是历史发展的产物。它绝不是凭空臆造出来的,也不完全是邪恶的化身,而是历史的一部分,并对人类文明的进程施加了不容忽视的影响。谣言“首先是人们所描述的那种随历史发展而变化的习俗,可以是截然不同的各种现象。另外,谣言还是在某一群体中以听传或类似的交际方式传播的信息。大家都说的还不是谣言,而是据说大家都在说的才是谣言。谣言是不完整的引言,谁引的不得而知,也没有人知道是谁说的”德诺伊鲍尔:谣言女神,10页,北京,中信出版社,2004。这说明
16、无法确定谁是谣言传播者,但可以确定谣言是通过人际传播扩散的。第三节 网络虚假信息及谣言辨别(二)从社会心理学角度社会心理学词典中把“谣言”解释为“没有事实根据的传闻,故意捏造的、口耳相传的消息。有一部分谣言属于诽谤性质的消息,有一部分属于夸大其词的传闻”时蓉华:社会心理学词典,243页,成都,四川人民出版社,1988。周晓红在传播的畸变对“非典”传言的一种心理学分析中根据对“非典”事件始末的分析,认为:“无论是在传统社会还是现代社会,谣言都是一种常见的社会心理现象,或是说一种以信息传播为特征的集群行为。”法国的勒莫认为:“一则谣言的历史,首先应该是某一群体有能力互相交流的历史,而集体记忆、实验
17、的社会空间和机遇则是用不同方法促成谣言形成的工具。”法勒莫:黑寡妇谣言的示意及传播,125126页,北京,商务印书馆,1999。也就是说,当社会稳定受到挑战、人民生命受到威胁时,谣言容易产生和传播,这是人没有安全感的一种心理投射。第三节 网络虚假信息及谣言辨别(三)从社会舆论的角度国内学者刘建明认为,谣言作为社会舆论出现,是没有任何事实根据的描述,并带有诽谤的意见指向,因此谣言不是中性的传闻,而是攻击性的负向舆论。参见刘建明:社会舆论原理,211页,北京,华夏出版社,2002。而法国学者勒莫却认为,谣言与公众舆论之间的关系是复杂的,“从其有结构的整个方面看,舆论是极易用概念来表达的,而谣言却更
18、加变化不定,它更容易流入形象或隐喻的模子中,这种模子可以被说成是一种变动中的概念或是一种预感的概念,那里正在加工出各种新概念和或新表象”法勒莫:黑寡妇谣言的示意及传播,182页。,“谣言是对失衡或社会不安状况的一种反应”同上书,125页。与此同时国内学者陈力丹也提出类似的观点:“流言是公众应付社会生活的一种应激状态,是公众解决疑难问题的不得已形式。”陈力丹:舆论学舆论导向研究,102页,北京,中国广播电视出版社,1999。勒莫和陈力丹都倾向于认为,谣言是特殊社会状态下的产物,强调它的社会性。第三节 网络虚假信息及谣言辨别二、谣言传播形式流变(一)传统谣言与网络谣言的关系传统谣言与网络谣言是一对
19、相对概念,传统谣言建立在人际传播的基础上,以口耳相传为其基本路径,在人与人之间尤其是在熟人社会中进行传播。由于传统谣言传播受到人所处的时空限制,所以对于不同地域的人来讲,在一方为谣言,而在另一方可能成为旧闻或者“新闻”。这时传统谣言呈现出信息的滞后性,这种滞后性又反过来制约着传统谣言产生影响的广度和深度,同时人在传统谣言面前变得无所适从,无法依靠个人力量判断谣言的真伪。网络谣言是在计算机技术的基础上构建的网络传播,从一个ID用户向另一个或者多个ID用户传递,它摆脱了熟人社会的范围,可以在虚拟社会中跨时空地自由传播。它几乎不受地域时间的限制,在一定时间发生的谣言,全世界都会很快知晓。所以网络谣言
20、又呈现出传播的及时性特征。为了使网民相信并掀起社会波澜,网络谣言往往呈现出细节的完整性:时间、地点、情节一般都一一列出。同时在某些情况下,网民可以集群体之智慧,主动破解谣言,通过各自所知道的相关知识来从不同角度验证谣言。“周老虎事件”便是有力的证明。第三节 网络虚假信息及谣言辨别微博兼具人际传播和大众传播的双重属性。微博是Web20的产物,Web20时代秉持“去中心化”的理念,强调用户建设、用户参与和用户主导,它从Web10时代的被动接受信息转为主动创造互联网信息的模式。它的标志性应用是博客、维基和论坛。微博是在博客的基础上衍生出来的。微博上的谣言也和网络社区上的谣言一样,同属于网络谣言。微博
21、得以迅速发展并成为目前最为流行的新媒体,关键在于它依托移动互联网的发展和手机功能的变革。在社会向信息化转型的过程当中,人们越来越希望摆脱固定网络的限制,移动互联网正好可以满足人们对随时随地上网的需求。手机操作系统的更新、手机界面的增宽变薄、智能手机向移动平台的不断转变,无不在吹响移动互联网未来无限发展的号角。微博也正是借助移动互联网和智能手机互相推动式的发展而出现的。(二)微博谣言与网络谣言的异同第三节 网络虚假信息及谣言辨别尽管微博可以在手机上也可以在电脑中应用,但应用于手机上的微博谣言与网络中的微博谣言仍有不同之处:(1)基于手机的可移动性,手机上的微博谣言传播更加迅速,扩散速度更快。(2
22、)手机微博可以被关注(订阅)和转发,通过手机实现了信息的实时传播。总之,微博在赢得大众普遍欢迎的同时,也因其自身的传播特征使得谣言频频光顾,基于手机媒体的微博谣言以更快的速度实时向世界传递已经成为目前我们急需研究和解决的问题。(三)手机微博谣言与网络微博谣言第三节 网络虚假信息及谣言辨别三、谣言的消解与辨别(一)奥尔波特模型1947年,美国心理学家奥尔波特提出谣言的产生有两个基本条件:第一,故事的主题必须对传谣者和听谣言有某种重要性;第二,真实的事实必须被某种模糊性掩盖起来。第三节 网络虚假信息及谣言辨别依据这两个基本条件,他提出了谣言的基本法则(这里“法则”指的是规律):事实的重要性和模糊性
23、与谣言传播有关,其公式为:R=ia在此公式中,R=谣言(rumor),i=重要性(importance),a=模糊性(ambiguity)。R表示谣言流行的强度和广度;i表示事件对于某一群体人员的重要性;a表示该事件或证据的模糊性。当i与a这两个条件同时具备时,谣言方可产生。这说明:事件对于某群体越重要,事件的模糊程度越高,则谣言产生的可能性就越大,其传播的强度就越高,传播的范围就越广。第三节 网络虚假信息及谣言辨别在前人研究的基础上,我们认为谣言法则可以通过增加信息的不对称性一项加以完善,谣言公式可以补充为:R=iaia其中,ia指信息的不对称性(information asymmetry)
24、,即谣言=事件的重要性事件的模糊性信息的不对称性。信息不对称性越大,谣言传播越快;反过来,信息不对称性越小,谣言传播越慢,甚至不再传播。事件的重要性、模糊性与信息的不对称性与谣言传播成正比例关系,三者缺一不可。第三节 网络虚假信息及谣言辨别事例:2011年7月23日晚8时30分05秒,由北京南站开往福州站的D301次列车由后方与杭州站开往福州南站的D3115次列车发生同向动车组列车追尾事故,造成40人死亡、172人受伤。事故发生后,搜救行动是否过早结束、恢复通车是否过急、坠地的后车车头被迅速掩埋、政府控制媒体和司法系统以及越早签订赔偿协议得到越多赔偿等问题使原中国铁道部遭到了中国社会各界的质疑
25、。第三节 网络虚假信息及谣言辨别首先,从事件的重要性来讲,尽管我国高铁事业对经济建设、未来国家发展格局具有重大战略意义,但当高铁出现重大事故时,这种对高铁安全性的质疑以及对车上人员性命安危的担忧自然得到了全国乃至全世界的关注。因为它不仅仅关乎着个体生命的存在与安全,更为重要的是它还关乎着一个国家对全体公民生命的尊重和保障。第三节 网络虚假信息及谣言辨别其次,从事件的模糊性来讲,7月23日所发生的甬温线特大交通事故是完全真实的事实,不是人为虚构的、编造出来的事情。但是事件发生之后,铁道部没有及时对如何救援、采取何种措施以及为什么采取这种措施等相关的信息进行公布,致使事件的模糊性增强,公众猜测不断
26、,于是微博上的谣言开始出现并乘势肆虐。在事故发生26小时之内,官方更多相关事故信息的公布一直处于空白区,而微博上发布的“神秘手”图片引发了网上“掩埋活人”的谣言,这一谣言瞬间引起了网友们乃至全国极大的反响,怀疑声、质疑声、谴责声一浪高过一浪。而随后铁道部召开的记者招待会,又因时任铁道部发言人王勇平的回答“至于你信不信(由你),我反正信了”,再次丧失了平息谣言传播的机会。这种傲慢、这种缺乏生命关怀式的解释不仅没有减少网民对救援工作的质疑,相反激起了大众的愤怒,使得事件的模糊性一再加强,从而造成了谣言不但不减少反而增多的混乱局面。第三节 网络虚假信息及谣言辨别最后,为什么这次事故会连续不断引发八大
27、谣言?我们认为是信息的不对称性造成谣言的此起彼伏。信息不对称的主体是政府机构与公众。政府机构作为社会管理者,与被管理者的公众相比,所掌握的信息要多得多,而且往往掌握着第一手资料。在通常情况下,如果政府机构所掌握的信息不公之于众,那么作为被管理者的公众是没有途径知晓的,但是我国宪法规定公民有知情权,这种权利要求政府机构公开信息(当然这种信息的公开不能危及国家安全),所以从这个角度来讲,政府机构与公众之间的信息不对称是可以消除的。就这次事故而言,官方所掌握的事故情况、相关救援及处理信息与大众所获知的信息是不对称的,它所公开的信息无法满足公众对了解事件真相的渴求。此外,这次交通事故所引发的一连串谣言
28、,更深层的原因是公众对铁道部长久以来的不满甚至反感情绪的集中爆发,是对铁道部不信任的强烈表现。第三节 网络虚假信息及谣言辨别(二)网络谣言传播、扩散及消解模型在事件重要性无法改变和事件模糊性难以确定的条件下,信息的不对称性(ia)是消解谣言的关键因素。因微博所出现的谣言仍归属于网络谣言,据此,我们建立了以消除信息不对称性为主要因素的网络谣言传播、扩散及消解模型。事件网络谣言大众政府机构信息不对称的消除引起社会动荡等媒体消解谣言第三节 网络虚假信息及谣言辨别事例:2011年3月的“谣盐”恐慌就是一起典型的由于信息不对称加快谣言传播的案例。2011年3月,日本核电站爆炸引发的“核泄漏”恐慌在全国蔓
29、延,绍兴、宁波、福州等沿海城市开始出现抢盐风潮,不少居民纷纷奔走于各大超市抢购食盐以“备战”日本核辐射污染。出现抢盐潮的原因有二:一是传言吃碘盐可防辐射,二是谣传核泄漏污染了海盐。其实,从科学与专业的角度看,食盐里碘的含量是很低的,市民就算吃很多盐,也起不到多大的防辐射作用。而且日本核电站泄漏的放射性物质极少,再加上稀释作用,对中国沿海的影响几乎可以忽略不计,也就不存在污染海盐的问题。但是,由于绝大多数民众缺乏核辐射方面的专业知识,因而这种专业信息的不对称在恐慌心理的催化下加快了谣言传播的速度。第三节 网络虚假信息及谣言辨别(三)基于“网络谣言传播、扩散及消解模型”的网络谣言消解之策1政府机构
30、应增强公信力,实事求是地公开信息,奠定消解谣言的基础2注意“塔西佗陷阱”带来的影响“当政府不受欢迎的时候,好的政策与坏的政策都会同样地得罪人民。”这个卓越的见解后来成为西方政治学里的定律之一:“塔西佗陷阱”3新媒体是成功消解谣言的重要平台 4公众对真相不懈追求的特点决定了公众是成功消解谣言的最终推动者【思考题】1请问你如何看待信息透明对抑制网络谣言传播的作用?2请问你如何看待“塔西佗陷阱”?3美国心理学家奥尔波特提出了谣言的基本法则:事实的重要性和模糊性与谣言传播有关,并用公式R=ia来表示。在公式中,R=谣言(rumor),i=重要性(importance),a=模糊性(ambiguity)。请问你认为谣言传播的变量还有哪些?