1、第五章 网上信息资源及其查询方法 INTERNET三大基本概念和功能组 网上信息检索的工具、搜索方式和搜索技巧 影响检索结果的因素 使用搜索引擎时应注意事项1 INTERNET三大基本概念和功能组1.1 INTERNET三大基本概念 1)TCP/IP协议:传输控制与网际协议 2)DN(域名)和 IP地址 3)URL:全球资源定位器1)TCP/IP协议 TCP是Transmission Control Protocol(传输控制协议)的缩写,IP是Internet Protocol(网际协议)的缩写支持WWW功能的HTTP(Hypertext Transport Protocol,超文本传输协议
2、),该协议容许文字、图画、声音等同时传输 支持E-mail功能 的SMTP(Simple Mail Transfer Protocol,简单邮件传输协议)和POP(Post Office Protocol,邮局协议)支持FTP功能的FTP(File Transfer Protocol,文件传输协议)2)DN(域名):Domain Name 结构:由2到5段字符构成,中间用.隔开,形如 host.inst.fild.stat stat 国别代码,au(澳大利亚),ca(加拿大),cn(中国),fr(法国),it(意大利),uk(英国),美国因创美国因创建建InternetInternet优先而无
3、此码优先而无此码 fild网络分类代码,ac(学术网)、com(商用网)、edu(教育网)、gov(政府网)、mil(军事网)、net(公共网)、org(社团网)七类,1997年秋季起Internet管理机构决定未来将增设arts(文艺机构)、firm(公司企业)、info(信息服务机构)、nom(个人专用)、rec(娱乐专用)、store(商店专用)、web(万维网专用)七类代码;inst 单位或子网代码,一般是其英文缩写;sdau(山东农业大学)host 是主机或服务器代码。如我校的WWW服务器的DN为 FTP服务器的DN则为2)IP地址 结构:一般为四段数字,中间用.隔开 202.194
4、.143.13 3)URL URL(Uniform Resource LocatorUniform Resource Locator)定义文件在Internet上的位置,无论其位于哪台主机、哪个子目录,只要给出文件的URL地址,就能在nternet信息海洋中准确无误地定位该文件,就象是一个全球定位器。URL的一般语法格式为:protocol:/hostdn(hostip):port/path/file 1.2Internet 功能组 功能群功能群 基础协议基础协议 URLURL形式形式 主要搜索工具主要搜索工具 (1)WWW HTTP http:/.(1)WWW HTTP http:/.Web
5、 Search Engine BrowserWeb Search Engine Browser (2)FTP FTP ftp:/.(2)FTP FTP ftp:/.FTP Search Engine(Archie)FTP Search Engine(Archie)Browser;Ws_ftp Browser;Ws_ftp(3)Email SMTP/POP mailto:.(3)Email SMTP/POP mailto:.WhitepageWhitepage Search Engine Search Engine Browser;Eudora Browser;Eudora(4)Usenet N
6、NTP news:.(4)Usenet NNTP news:.Usenet Search Engine Usenet Search Engine Browser;WinVN Browser;WinVN (5)Telnet TELNET telnet:/.(5)Telnet TELNET telnet:/.Gopher(Veronica&Gopher(Veronica&Jughead)etc Browser;Netterm Jughead)etc Browser;Netterm 2 网上信息检索的工具、搜索方式 和搜索技巧6.2.1工具:搜索引擎(Search Engine):Internet上
7、具有查询功能的网页的统称,如:Web Search Engine(万维网搜索引擎)FTP Search Engine(文件搜索引擎)Email/WhitePage Search Engine(电子函件/白页搜索引擎)YellowPage Search Engine(黄页搜索引擎)Usenet Search Engine(新闻论坛搜索引擎)Meta-Search Engine(元搜索引擎)等类型 中文搜索引擎中文搜索引擎 百度百度 http:wwwbaiducom 搜狐搜狐 http:wwwsohucom 搜索客搜索客 http:wwwcseekcom 悠游悠游 http:wwwgoyoyoco
8、mcn 新浪新浪 http:wwwsinacomcn 网易网易 http:wwwyeahnet 中文搜索引擎中文搜索引擎 常青藤常青藤 http:wwwtonghuacomcn 若比邻若比邻 http:wwwrobotcomcn 北极星北极星 http:wwwbeijixincomcn 网典网典 http:wwwcnnavigatecom 天网天网 http:epkuedwcn 雅虎中文雅虎中文 http:cnyahoocom西文搜索引擎西文搜索引擎 http:wwwgooglecom http:wwwinfoseekcom http:wwwexcitecom http:wwwyahoocom
9、 http:www1ycoscom http:wwwaltavistacom http:wwwmetacrawlercom http:wwwprofusioncom6.2搜索引擎的搜索方式搜索引擎的搜索方式 简单搜索简单搜索(Simple Search(Simple Search,简记作,简记作SS)SS):指输入一个单词:指输入一个单词(关键词关键词)或两个单词以上的词组或两个单词以上的词组(短语短语),提交搜索引擎查,提交搜索引擎查询,这是最基本的搜索方式。大多数搜索引擎都约定把词询,这是最基本的搜索方式。大多数搜索引擎都约定把词组或短语放在引号组或短语放在引号“”“”内。内。高级搜索高级
10、搜索(Advanced Search(Advanced Search,简记作,简记作AS)AS):指用布尔逻辑:指用布尔逻辑组配方式查询,也叫定制搜索。也包括多词语句提问的任组配方式查询,也叫定制搜索。也包括多词语句提问的任意查询。不同搜索引擎对语句中词与词之间的关系的处理意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。方式不同。目录搜索目录搜索(Catalog Search(Catalog Search,简记作,简记作CS)CS):指按搜索引擎提:指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的
11、几种分类项目,选择类别进行搜索,是按照查询系统所给的几种分类项目,选择类别进行搜索,因而也叫分类搜索因而也叫分类搜索(Classified Search)Classified Search)。6.3搜索引擎的检索技巧搜索引擎的检索技巧 5种常见的数据库检索功能:布尔逻辑检索、字符串检索、截词检索、字段检索,限制检索和位置检索 特有的检索功能:自然语言检索、概念检索、加减(+一)号检索、区分大小写的检索、检索结果的相关性排序 1)布尔逻辑检索(1)逻辑运算符:逻辑与:空格、+、and 计算机 病毒、计算机+病毒、计算机and病毒 逻辑或:|、or 计算机or电脑、计算机|电脑 逻辑非:not、-
12、彩票not山东、彩票-山东 (2)注意事项:A 受支持的程度不同:受支持的程度不同:完全支持,如完全支持,如Excite、Infoseek等均支持等均支持AND、OR、NOT全部三种运算;全部三种运算;部分支持,部分支持,如如Yahoo只支持只支持AND、OR两种运算;两种运算;只在其只在其“高级检索高级检索”模式中模式中“完全支持完全支持”,而,而在在“简单检索简单检索”模式中是模式中是“部分支持部分支持”,如,如HotBot、Lycos。(2)注意事项:B 提供运算的方式不同:大部分仍采用常提供运算的方式不同:大部分仍采用常规的命令驱动方式,也有一部分是采用规的命令驱动方式,也有一部分是采
13、用菜单驱动方式,即用菜单选项代替布尔菜单驱动方式,即用菜单选项代替布尔运算符进行逻辑运算,如运算符进行逻辑运算,如HotBot、Lycos中均提供了两个菜单选项中均提供了两个菜单选项“All the words”和和“Any of the words”代代表表AND和和OR运算。运算。2)字符串检索(短语检索)定义:将一个字符串(通常用双引号括起)当作一个独立的运算单元,进行严格匹配,以提高检索的精度和准确度。逻辑运算符:“”几乎所有的搜索引擎都支持字符串检索 3)截词检索 逻辑运算符:*在搜索引擎中,目前只提供右截法 4)字段检索和限制检索 在搜索引擎中字段检索一律表现为前缀限制的形式,如属
14、于主题字段限制的有:“Title:”、“Subject:”,“Keyword:”、“Summary:”等;属于非主题字段限制的有:“Image:”、“text:”等。作为一种网络检索工具,搜索引擎还提供了许多新的、带有典型网络检索特征的字段限制类型,如主机名限制(host:)、超链限制(anchor:)、域名限制(domain:)、URL限制 (url:)、网址限制(site:)、E-mail限制(from:)等。5)位置检索 目前只有AltaVista提供临近位置运算(near运算)6)自然语言检索 定义:直接采用自然语言中的字、词甚定义:直接采用自然语言中的字、词甚至整个句子作提问式进行检
15、索,如可用至整个句子作提问式进行检索,如可用“What is the weather in Boston”7)概念检索 在用某一检索词进行检索时,能同时对该词的同义、近义、广义和狭义词进行检索,以达扩大检索范围、避免漏检的目的。这类似于一般数据库检索中的“扩展检索”功能。目前,只有Excite能提供此功能。8)加减(+一)号检索 作用相当于ANDNOT运算 几乎所有的搜索引擎都支持该功能9)区分大小写的检索 又称大小写敏感检索,这主要是针对检索词中含有人名、地名等专有名词而言的。如在区分大小写的情况下,Rock Hudson能被当作人名看待,而rock hudson则被当作两个普通词看待,从而
16、影响了检索结果的准确性。目前,AltaVista和Infoseek提供有此项功能。10)检索结果的相关性排序 检索结果通常是根据相关程度按从大到小的顺序降序排列 几乎所有的搜索引擎都提供了“对检索结果按其相关性大小排序”的功能 3影响检索结果相关性的因素(1)检索词的个数:检索出的记录中含有的检索词个数越多,相关性越大。(2)检索词在数据库记录中出现的位置:检索出的记录中含有的检索词出现在题名字段的,比出现在其他(如正文或URL)字段的相关性更大。(3)检索词所属的类目级别:检索出的记录中含有的检索词所属的类目级别越高,相关性越大。(4)检索词的权值:检索出的记录中含有的检索词权值比重越大,相
17、关性越大(词的专指度越高,权值越大)。4使用搜索引擎应注意的事项 最重要的技巧是关键词的选择最重要的技巧是关键词的选择 (1)查询要求应具体明确,能使用下位词时,就不要使用上位词。(2)不要使用常用词,即不要使用太泛的词。(3)调整查询。如果查询返回太多的结果,就要使检索词更具体。如果查询没有产生足够多的结果,就要使它更一般。不要认为第一次选择的关键字是最好的。(4)使用单词的词尾变化。例如,如果要查找有关running的Web页,则可使用“run”、“runs”和“running”等。(5)使用同义词。如果用户正在使用的搜索引擎是支持关键词组配的搜索工具,一定要使用“OR”将各个同义词配合起
18、来。(6)尽可能多使用字符串检索。如果用户想准确地匹配一个短语或标题,一定要用引号将它括起来,即进行字符串检索。例如,如果想在Internet上查找“information retrieval”,在搜索表单中应键人“information retrieval”。(7)熟悉正在使用的搜索工具。掌握一些搜索工具有很特殊的功能,使得查找相关内容更加容易。(8)任何信息搜索工具都有其局限性。当用户使用某种工具的搜索效果不理想时,换一种工具再试。一些工具在查询某类信息时的搜索领域宽于查询另一类信息的搜索领域,也可以考虑使用元搜索引擎或专业搜索引擎进行检索。(9)当获得的搜索结果十分有价值时,将它作为一个HTML文本存储在本地计算机中,以便再次使用。(10)查找专业性较强的信息时,应优先考虑使用专业搜索引擎。国内目前就有多种专业搜索引擎,如公路交通信息搜索引擎、医学搜索引擎、水产搜索引擎、暖通空调搜索引擎等。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。