1、 Internet 信息检索工具搜索引擎简单地说,所谓搜索引擎,就是简单地说,所谓搜索引擎,就是采用信息自采用信息自动跟踪标引等技术、建立在因特网上专门提动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。供网络信息资源导航服务检索工具。它能够通过它能够通过Internet Internet 接受用户的查询指令接受用户的查询指令,并向用户提供符合其查询要求的信息资源,并向用户提供符合其查询要求的信息资源网址。网址。1 1、什么是搜索引擎、什么是搜索引擎? ?它是一些在它是一些在Web Web 中主动搜索信息中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的并将其自
2、动索引的Web Web 网站,其网站,其索引内容存储在可供检索的大型数据库中,建立索索引内容存储在可供检索的大型数据库中,建立索引和目录服务。引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(当用户输入关键词(KeywordKeyword)查询时,该搜索引擎)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可又是提供查询、检索的网站。所以,搜索
3、引擎也可称为称为Internet Internet 上具有检索功能的网页上具有检索功能的网页。2 2、搜索引擎的工作原理、搜索引擎的工作原理搜索引擎由网上机器人搜索引擎由网上机器人(Spider (Spider 或或Robot)Robot)自动在自动在网页上按某种策略进行远程数据的搜索与获取,网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。并生成本地索引。Spider Spider 或或Robot Robot 是一种软件,它沿着是一种软件,它沿着WWWWWW文件的文件的链接在网上漫游,记录链接在网上漫游,记录URLURL、文件的简明摘要、文件的简明摘要、关键字或索引,形成一个很大的数
4、据库,这种数关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和据库包括标题、摘要、关键词和URLURL、文件的大、文件的大小、语种以及词出现的频率。小、语种以及词出现的频率。Internet网页自动分类子系统网页自动分类子系统网页搜集子系统网页搜集子系统信息检索子系统信息检索子系统资源索引数据库资源索引数据库管管理理子子系系统统搜索界面搜索界面通用搜索引擎系统结构通用搜索引擎系统结构3.3.搜索引擎的构成搜索引擎的构成 一个搜索引擎由搜索器、索引器、检一个搜索引擎由搜索器、索引器、检索器和用户接口索器和用户接口4 4个部分组成。个部分组成。(1 1)搜索器)搜索器 即通常所
5、说的蜘蛛即通常所说的蜘蛛(Spider)(Spider)、机、机器人(器人(RobotRobot)、爬行者()、爬行者(WebcrawlerWebcrawler)等,搜索器的功能是在等,搜索器的功能是在InternetInternet中漫游,中漫游,发现和搜集信息。还要定期更新已经搜发现和搜集信息。还要定期更新已经搜集过的旧信息,避免死链接和无效链接。集过的旧信息,避免死链接和无效链接。(2 2)索引器)索引器 即索引软件,主要是用于对网络搜索软即索引软件,主要是用于对网络搜索软件采集到的网页信息进行自动标引,建立可供件采集到的网页信息进行自动标引,建立可供检索的检索的WebWeb索引数据库。
6、索引数据库。(3 3)检索器)检索器 检索器作为用户提问与数据库的接检索器作为用户提问与数据库的接口,负责接收用户查询请求和对该请求口,负责接收用户查询请求和对该请求进行检索,对将要输出的结果进行排序,进行检索,对将要输出的结果进行排序,并将检索结果返回用户界面。并将检索结果返回用户界面。 搜索引擎的数据检索方式主要是关搜索引擎的数据检索方式主要是关键字的匹配方式键字的匹配方式 , 如泛匹配、模糊匹如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式配、正则匹配以及多关键字的处理方式等等 。并对查询结果根据某种算法和规则。并对查询结果根据某种算法和规则评分和排序。评分和排序。 (4 4)用户接口
7、)用户接口 供用户输入查询,显示匹配结果。供用户输入查询,显示匹配结果。用户接口的设计和实现使用人机交互的用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习理论和方法,以充分适应人类的思维习惯。惯。4 4、搜索引擎的主要任务、搜索引擎的主要任务(1) (1) 信息搜集信息搜集各个搜索引擎都派出绰号为蜘蛛各个搜索引擎都派出绰号为蜘蛛(Spider)(Spider)或机或机器人(器人(RobotsRobots)的)的“网页搜索软件网页搜索软件”,在各网,在各网页中爬行,访问网络中公开区域的每一个站点页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创并
8、记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织断变化,机器人也不断地把以前已经分类组织的目录更新。的目录更新。(2) 信息处理信息处理将将“网页搜索软件网页搜索软件”带回的信息进行分类整理,建带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索索结果的数量和质量上产生明显的差异。有的搜索引擎把引擎把“
9、网页搜索软件网页搜索软件”发往每一个站点,记录下发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。息世界的同步发展。(3) 信息查询信息查询每个搜索引擎都必须向用户提供一
10、个良好的信息查询每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括界面,一般包括分类目录及关键词分类目录及关键词两种信息查询途径。两种信息查询途径。分类目录查询分类目录查询是以资源结构为线索,将网上的信息资是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。类检索信息。关键词查询关键词查询是利用建立的网络资源索引数据库向网上是利用建立的网络资源索引数据库向网上用户提供查询用户提供查询“引擎引擎”。用户只要把想要查找的关键。用户只要把想要查找的关键词或短语输入查询框中,并按词或短语输入查询框中,并按“
11、Search”Search”按钮,搜索按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。引擎提供的链接,就可以立刻访问到相关信息。5、搜索引擎的种类搜索引擎的种类检索型搜索引擎:检索型搜索引擎:它使用自动索引软件来发现、收集并标引网它使用自动索引软件来发现、收集并标引网页,建立数据库,并以页,建立数据库,并以WebWeb
12、形式让用户找到所需信息资源。比形式让用户找到所需信息资源。比较著名的有:较著名的有:AltaVistaAltaVista、GoogleGoogle、天网、百度、悠游等。、天网、百度、悠游等。目录型搜索引擎:目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜以卓越的分类目录型导航服务而称誉
13、全球,典型的分类目录搜索引擎如索引擎如Yahoo (Yahoo ( http:/ http:/ ) 混合型搜索引擎:混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。搜狐、网易、中华等门户网站。多元搜索引擎:多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索集成在一起,通过统一的检索界面进行网络信息多元搜索 的的检索工具。按照工作方式的不同可分为并行处理式和串行处理检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。
14、著名的有:式两大类。著名的有: Meta crawlerMeta crawler、DogpileDogpile、MammaMamma和万和万维搜索(维搜索(Http:/Http:/)等。)等。6.搜索引擎的一般搜索规则 利用搜索引擎既可以检索出 Internet 上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个词进行组合检索;既可以以词语查询有关主题的页面信息,也可以以特定的域名、主机名、 URL 等查找有关的网站信息。搜索引擎是基于一些基本的查询规则来实现这些查询条件的,但各个搜索引擎所采用的查询规则又不尽相同。下面介绍
15、的是常用的一般查询规则。 (1) 布尔逻辑算符布尔逻辑算符 逻辑逻辑“与与” 逻辑“与”一般用“ AND ”表示,有的搜索引擎还可以用“ &” 表示。使用逻辑“与”是为了要求检索结果的 Web 页面中同时出现所有输入的检索词,提高查准率。 逻辑逻辑“或或” 逻辑“或”一般用“ OR ”表示,有的搜索引擎还可以用“ | ”表示。使用逻辑“或”是为了允许检索结果的 Web 页面中出现输入检索词的任何一个,提高查全率。 逻辑逻辑“非非” 逻辑“非”一般用“ NOT ”表示,有的搜索引擎还可用“!”表示。使用逻辑“非”是为了要求检索结果的 Web 页面中出现 NOT 前的检索词,但排除含有 NOT 后
16、的检索词的页面信息,以缩小检索范围。 (2)空格、逗号、括号、引号的作用空格、逗号、括号、引号的作用 空格空格 空格的作用与逻辑“与”( AND )相同。例如:检索式“ aircraft engine ”,表示可查出含有“ aircraft ”及“ engine ”的页面。在汉字作为关键词输入时,切记不要在构成关键词的两个字之间插入空格,否则,就会发生两个字之间进行逻辑“与”的检索错误。例如:用户要查找“飞机”这个关键词,但却输入了“飞 机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩
17、大了很多,许多结果中已不含有与“飞机”相关的信息。 逗号逗号 逗号(,)的作用类似于逻辑“或”( OR ),也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。例如,检索式“计算机,网络,多媒体”,可查出包含三个关键词中的任何一个或几个的页面,而同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。 括号括号 括号“ ( ) ”的作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。例如,检索式“多媒体 and (计算机 or 网络)”,表示要求先执行括号中的“ OR ”运算,再执行括号外的“ AN
18、D ”运算。 引号引号 引号( “ ” )的作用是,括在其中的多个词被当作一个短语来检索。绝大部分主要搜索引擎都支持短语检索,找到含有与短语词序和意义完全相同的页面。例如,检索式“ electronic magazine ” ,表示把 electronic magazine 当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含 electronic 和 magazine 的页面,结果应与用户要求的主题内容相去甚远。 (3)截词符、连接符、邻近符截词符、连接符、邻近符 截词符截词符截词符一般用星号( * )表示。当“ * ”置于一个词的未尾时,表示将相同词干的词全
19、部检索出来。例如;检索式“ compu* ”,则表示可以检索到 computer 、 computing 、 compulsion 等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。注意:“ * ”不能用在检索词的开始和中间。 连接符连接符 连接符有加号( + )和减号( - )。 在检索词前使用“ + ”时,表示所有检索结果的页面中都必须包含该词。例如:检索式“ +A+B ”,表示查得的页面中应出现“ A ”和“ B ”方面的信息;而检索式“ A+B ”,则表示在检索结果页面中一定含有“ B ”,但不一定有“ A ”的信息。 检索词前使用“ - ”
20、时,表示任何检索结果的页面中都不能包含该词。例如:检索式“ microwave-ceramic ”,则表示查找关于 microwave 的页面,但排除那些和 ceramic 有关的页面。邻近符邻近符 邻近符( NEAR )用于检索在一定区域范围内同时出现的检索词的文献,它指定了检索词之间的距离。用 NEAR/n ( n 为 1 , 2 , 3 )精确控制检索词之间的距离,表示检索词的间距最大不超过 n 个单词。例如:检索式“ Computer near/10 Network ”,可查找出 computer 和 Network 两词之间插入不大于 10 个单词的文献,检索结果输出时,间隔越小的排
21、列位置越靠前。 (4 4)限定字段检索)限定字段检索 限定字段检索,即限定检索词在搜索引擎数据库中某个字段范围进行查找,如网页标题、站点、网址、链接等。 标题检索 网页标题通常是对网页内容提纲挈领式的归纳。把查询内网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。容范围限定在网页标题中,有时能获得良好的效果。 标题检索就是在网页的标题中查找输入的检索词,使用的命令一般是“ title ”,其格式为: intitle :检索式 例如: intitle:mars intitle:“ mars landings ” 站点检索 站点检索就是在网站地址域名中
22、检索输入的词,以查找用户指定站点上的所有页面。使用的命令一般是“ site ”,其格式为: site :域名中的词 例如,检索式“site: ”,表示可以检索出 WWW 服务器中主机名为“ ”的网页。 假如想要查找关于火星着陆方面的资料,并且只想在教育网站(后缀为 .edu )中查找,可以输入这样的检索式:“ mars landings ” + site:edu 注意:网站地址前不能带“http:/” site:http:/ 是错误写法。site:和站点名之间,不要带空格。 在网址中搜索 网页url中的某些信息,常常有某种有价值的含义。于是,如果对搜索结果的url做某种限定,就可以获得良好的效
23、果。有些搜索引擎提供在 URL 的文本中进行检索的功能,这和站点检索非常相似。使用的命令一般是“ inurl ”,其格式为: inurl : URL 中的词 例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。再如,检索式“ inurl:home.html ”可以检索出在网页地址中含有“ home.html ”的页面。 注意,inurl:语法和后面所跟的关键词,不要有空格。 链接检索 链接检索就是在与特定网页或网域有链接的所有网页中进
24、行检索。使用的命令一般是“ link ”,其格式为: link :特定网页或域中的词 例如,“link:”将找出所有指向 Google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。 专业文档搜索 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。 百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。 Google已经可以支持13种非HTML文件的搜索。除了PDF文档
25、,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。 例如,查找计算机网络方面的论文,可以输入检索式“计算机网络 filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。 7.高级检索功能 (1)自然语言检索:即直接采用自然语言中的字、词、句作为提问式进行检索,如可用How has the networked information retrieval developed?这样的表达式充当
26、检索提问式。 自然语言检索使网络检索变得简单、直接,特别适合一般用户使用。现在几乎所有的搜索引擎都支持自然语言检索,因而倍受一般用户的欢迎。 (2)模糊检索:是最常用的方法,当输入一个关键词时,搜索引擎就把与关键词相关的词一起反馈、列出供用户选择。例如在Yahoo中查找“搜索引擎”一词时,模糊检索就会把“搜索引擎”、“搜寻引擎”、“引擎”等检索相关词一并列出。 (3)概念检索:主要是同义词和近义词检索,即检索某词时,同时对该词类似概念的同、近义词进行检索,以达到扩大检索,避免漏检的目的。如Excite在概念检索方面功能较强。 (4)区分大小写的检索:有助于提高查准率,为此许多网络检索工具可让用
27、户选择是否要求分辨大小写,这主要是针对检索词中含有的人名、地名等专有名词而言的。如Altavista、Infoseek等都提供此项功能。 (5)管道检索:即用管道检索符号,“|”连接两个或更多检索词,先对前一个词进行检索,再在其结果的基础上对后一个词进行检索,依次类推,以达到逐步缩小检索结果、提高查准率的目的,如Infoseek等。 (6)相关信息反馈检索:搜索引擎往往能进一步提供与检索结果类似的结果,如Excite的search for more documents like this one,Lycos的more like this,中文Yahoo的“相关网站”、“相关网页”、“相关新闻”
28、等。(7)检索范围的限制:搜索引擎提供的范围限制大体有以下几个方面。 语种范围,如Alta vista提供25种语言选择。 地域范围,在某一地区中检索。 时间范围,限制时间段。 分类范围,在某一类别中检索,如教育、黄页等。 信息来源范围,如WWW,BBS,FTP等。 特殊范围,如域名后缀(.com 、.gov 、.org等)、文件类型(文本、图形、声音等)。7.搜索引擎的评价标准(1)查全率:搜索引擎首先要比较的就是其搜索范围。(2)搜索速度:查询速度是搜索引擎的重要指标,快速响应是基本的要求。(3)查准率:好的搜索引擎内部应该有较准确的搜索程序,搜索的精度较高。(4)更新速度:优秀的搜索工具
29、内部应该有一个含时间变量的数据库,能保证索查询的信息都是最新的和最全面的。(5)死链接:一般的搜索引擎总有些搜索结果网页打不开,少到百分之一二,多到百分之八九,死连结也被作为判断搜索引擎的好坏标准之一。(6)易用性:搜索引擎的易用性包括搜索界面是否简洁,对搜索结果的描述是否正确。(7)其它:搜索引擎的稳定性、对高级搜索的支持能力等都是评价搜索引擎的重要指标。国内外常用的搜索引擎1、著名综合型检索工具、著名综合型检索工具Google http:/(1 1)概述)概述nGoogle 是从第一代搜索引擎中脱颖而出的第二代搜索引擎的是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。代表。1998 年
30、,两位斯坦福大学的博士生年,两位斯坦福大学的博士生Larry Page 和和Sergey Brin 创立了创立了Google,它的使命就是要为用户提供网上,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。最好的查询服务,促进全球信息的交流。Google 开发出了世开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对通过对40 多亿网页进行整理,可为世界各地的用户提供适合多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒。现在需要的搜索结果,而且搜索时间通常不到半秒。现在Goog
31、le 每天需要提供每天需要提供1.5亿次查询服务亿次查询服务。n(2)特点)特点n支持多达支持多达132132种语言;提供种语言;提供4040多亿个搜索网页,涵盖内容齐全;多亿个搜索网页,涵盖内容齐全;搜索速度快;结果命中率高;搜索速度快;结果命中率高;n搜索结果摘录查询网页的部分具体内容搜索结果摘录查询网页的部分具体内容, ,而不仅是网站简介;而不仅是网站简介;n智能化的智能化的“手气不错手气不错”功能功能, ,提供可能最符合要求的网页;提供可能最符合要求的网页;n“网页快照网页快照”功能功能, ,能从能从GoogleGoogle服务器里直接取出缓存的网页。服务器里直接取出缓存的网页。(3
32、3)检索功能)检索功能n 基本检索:基本检索:w逻辑逻辑“与与”:检索框中的两个关键词之间用空格隔开则:检索框中的两个关键词之间用空格隔开则默认为是默认为是“AND”(“AND”(“与与”运算运算) )连接。连接。w逻辑逻辑“非非”:用:用“”(”(减号减号) )表示表示, ,同时要求在减号前保同时要求在减号前保留一个空格。留一个空格。w逻辑逻辑“或或”:用:用“OR”OR”表示。表示。w双引号、斜线、问号、等号、省略号都可以作为短语的双引号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词。连接符号查找名言或专有名词。n字段限定检索:字段限定检索:site:限定在某个特定的
33、域或站点中进行检索。限定在某个特定的域或站点中进行检索。inurl:限定搜索结果,网页的限定搜索结果,网页的URL必须包含所规定的字符串。必须包含所规定的字符串。filetype:文档检索文档检索逻辑逻辑“与与”中间是空格中间是空格逻辑逻辑“非非”中间是空格,中间是空格,第二个词前有第二个词前有“-”号连接号连接逻辑逻辑“或或”中间是连接符中间是连接符“OR”连接两连接两个关键词个关键词指定网域查询指定网域查询(4 4)使用时应注意的问题:)使用时应注意的问题:n不区分英文字母的大小写不区分英文字母的大小写,所有字母均作小写对待。,所有字母均作小写对待。例如:输入例如:输入“george wa
34、shington”george washington”(乔治(乔治华盛华盛顿),或是顿),或是“George Washington”, George Washington”, 再或是再或是“gEoRgE wAsHiNgToN”gEoRgE wAsHiNgToN”,结果都是一样的。,结果都是一样的。n通配符问题。通配符问题。GoogleGoogle对通配符的支持有限,只能用对通配符的支持有限,只能用“* *”代替单个字符,而且必须将检索词用引号引代替单个字符,而且必须将检索词用引号引起来,如起来,如“以以* *治国治国”。n忽略的字符与强制检索。忽略的字符与强制检索。GoogleGoogle对一
35、些出现频率极对一些出现频率极高的英文单词,如高的英文单词,如“i”i”、“com”com”、“www”www”等,等,以及一些符号如以及一些符号如“* *”、“.”.”等,作忽略处理。如等,作忽略处理。如果必须进行强制检索,在这些字符前后用果必须进行强制检索,在这些字符前后用“+”+”,如如“+www+www+的历史的历史”,或用,或用英文的引号英文的引号。强强 制制 搜搜 索索(5)检索方法)检索方法(1)分类检索分类检索在在Google Google 中选择中选择“网页目录网页目录”(DirectoryDirectory),即可),即可进入进入Google Google 分类目录检索界面。
36、分类目录检索界面。点击点击“网网页目录页目录”分类检索分类检索( (2)2)关键词检索关键词检索Google Google 关键词检索分为基本检索和高级检索。关键词检索分为基本检索和高级检索。1、输入、输入检索词检索词2、点按、点按“搜索搜索”即即可可基本检索界面基本检索界面高级检索界面高级检索界面输入检索输入检索词词限制区域限制区域n高级检索功能:高级检索功能:w可排除某个特定站点的网页可排除某个特定站点的网页( (限定网域)限定网域)w可对检索结果页面的语言类型进行限制(限定语可对检索结果页面的语言类型进行限制(限定语种)种)w可限定检索结果的时间范围(更新日期)可限定检索结果的时间范围(
37、更新日期)w可限定关键词出现的位置(字词位置)可限定关键词出现的位置(字词位置)w可检索链向某一个网页的所有页面(键连功能)可检索链向某一个网页的所有页面(键连功能)w可检索与某一个网页相关的所有网页(相似网页可检索与某一个网页相关的所有网页(相似网页检索)检索)Google提供的服提供的服务内容务内容GoogleGoogle的其他杰出功能的其他杰出功能网页快照网页快照 单词英文解释单词英文解释 网页翻译网页翻译 单词纠错单词纠错 繁简转换繁简转换 搜索结果过滤搜索结果过滤网页快照网页快照在访问网站时,会将看过的网页复制一份网页在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网
38、页时使用。快照,以备在找不到原来的网页时使用。单击单击“网页快照网页快照”时,将看到时,将看到Google 将该网页将该网页编入索引时的页面。编入索引时的页面。Google 依据这些快照来分依据这些快照来分析网页是否符合用户的需求。在显示网页快照析网页是否符合用户的需求。在显示网页快照时,其顶部有一个标题,用来提醒这不是实际时,其顶部有一个标题,用来提醒这不是实际的网页。符合搜索条件的词语在网页快照上突的网页。符合搜索条件的词语在网页快照上突出显示,便于快速查找所需的相关资料。尚未出显示,便于快速查找所需的相关资料。尚未编入索引的网站没有编入索引的网站没有“网页快照网页快照”,另外,如,另外,
39、如果网站的所有者要求果网站的所有者要求Google 删除其快照,这些删除其快照,这些网站也没有网站也没有“网页快照网页快照”。类似网页类似网页单击单击“类似网页类似网页”时,时,Google 侦察兵便开始寻找侦察兵便开始寻找与这一网页相关的网页。与这一网页相关的网页。Google 侦察兵可以侦察兵可以“一一兵多用兵多用”。如果您对某一网站的内容很感兴趣,但。如果您对某一网站的内容很感兴趣,但又嫌资料不够,又嫌资料不够,Google 侦察兵会帮您找到其他有侦察兵会帮您找到其他有类似资料的网站;如果您在寻找产品信息,类似资料的网站;如果您在寻找产品信息,Google 侦察兵会为您提供相关信息,供您
40、比较;如果在某侦察兵会为您提供相关信息,供您比较;如果在某一领域做学问,一领域做学问,Google 侦察兵会成为您的助手,侦察兵会成为您的助手,帮您快速找到大量资料。帮您快速找到大量资料。Google 侦察兵已为成千侦察兵已为成千上万的网页找到了类似网页,但网页越有个性,能上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。找到的类似网页就越少。手气不错手气不错按下按下“手气不错手气不错”按钮将自动进入按钮将自动进入Google 查询查询到的第一个网页。您将完全看不到其它的搜索到的第一个网页。您将完全看不到其它的搜索结果。使用结果。使用“手气不错手气不错”进行搜索表示用于搜进行搜
41、索表示用于搜索网页的时间较少而用于检查网页的时间较多。索网页的时间较少而用于检查网页的时间较多。例如,要查找例如,要查找安徽工业安徽工业 大学的主页,只需在搜大学的主页,只需在搜索字段中输入索字段中输入“安徽工业大学安徽工业大学”,然后单击,然后单击“手气不错手气不错”按钮。按钮。Google 将直接带您进入将直接带您进入安安徽工业徽工业大学的官方主页大学的官方主页1、输入检索词、输入检索词“安徽工业大学安徽工业大学”2、点、点“手气不错手气不错”按钮按钮直接显示直接显示“安徽工安徽工业大学业大学”官方主页官方主页使用偏好:根据自使用偏好:根据自己的需要定制己的需要定制2.Yahoo (htt
42、p:/www.Y ) Yahoo 是 Internet 上最受欢迎的搜索引擎,也是访问频率最高的一个门户网站。它是由美国斯坦福大学的华裔博士杨致远与他的同学 David Filo 于 1994 年开发的,目前,由美国多家公司与个人资助。 Yahoo! 具有覆盖范围广、连接速度快、数据容量大、使用方法简单等特点;提供了两种模式的检索方式:分类目录检索和关键词检索。3.Alta vista(http:/) AltaVista 是由前 DEC 公司于 1995 年开发的,是 Internet 上最著名的搜索引擎之一。 Alta Vista 的搜索范围非常大,就连一些鲜为人知的偏僻站点也能找到,因此它
43、的搜索结果十分丰富。 4.Go/Infoseek(http:/www.G)5.HotBot(http:/www. )6.Ask Jeeves(http:/或http:/)7.Lycos(http:/)8.Ditto(http:/)9.All The Web(http:/)2、综合型中文搜索引擎、综合型中文搜索引擎目前形成规模的综合型中文搜索引擎有:目前形成规模的综合型中文搜索引擎有: 搜狐、网易、新浪、天网、北极星、搜狗、搜狐、网易、新浪、天网、北极星、搜狗、悠游、中国搜索、悠游、中国搜索、263在线搜索引擎、在线搜索引擎、21cn搜索引擎、搜索引擎、TOM中文搜索、常春藤、中文搜索、常春藤、
44、焦点搜索引擎、看中国、中国搜索、中国焦点搜索引擎、看中国、中国搜索、中国导航等。导航等。百度搜索引擎百度搜索引擎百度(百度(http:/):百度):百度搜索引擎是目前最有影响的中文网络信息检搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。字,或中英文数字的混合体。天网搜索 (http:/) 天网搜索的前身是北大天网(http:/)。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在CERNET上向广大互联网用户
45、提供Web信息搜索及导航服务。2000年初 新成立的“天网”搜索引擎课题组在国家973重点基础研究发展规划项目基金资助下,致力于探索和研究中英文搜索引擎系统的关键技术。 利用天网搜索搜索教育科研网内的资源是最为理想与快捷的,特别是其对FTP文件传输格式的支持,可用于搜索教育网内的FTP资源。FTP FTP 检索检索 天网文件搜索即搜索ftp文件也搜索www文件。天网文件搜索引擎已经是国内最为大型的ftp搜索引擎,也是国际上名列前茅的ftp搜索引擎,目前搜集了2万多个ftp站点,为2000万文件条目建立索引,目前天网搜索引擎维护的文档数量达到6亿之多,并正在以平均每月一千万页文档的数量扩大着规模
46、。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。 在天网主页点击“资源”进入 FTP 检索页面。比较好的外文搜索网站比较好的外文搜索网站http:/www.doaj.org 提供科学和学术方面的免提供科学和学术方面的免费全文资料费全文资料http:/ WEB上最大的上最大的免费论文库免费论文库http:/ 综合性科学综合性科学知识搜索引擎,在收集具体的科学数据、报告、论知识搜索引擎,在收集具体的科学数据、报告、论文及学术网页方面非常成功文及学术网页方面非常成功http:/ 对所有类型的对所有类型的文件和网站进行检索,可限制所查资源
47、的专业领域,文件和网站进行检索,可限制所查资源的专业领域,也可限制也可限制WWW资源的重复出现资源的重复出现http:/citeseer.ist.psu.edu/ 一个不错的面向计一个不错的面向计算机领域的搜索引擎,能够查看全文。算机领域的搜索引擎,能够查看全文。CERNET内的主要的内的主要的FTP搜索引擎搜索引擎北大天网的北大天网的FTP搜索引擎搜索引擎http:/星空互联之星空互联之FTP星空搜索星空搜索http:/ ftp:/202.113.29.120深圳热线深圳热线FTP服务器:服务器: ftp:/中国经济信息网中国经济信息网FTP服务器:服务器: ftp:/中经网自由软件中经网自
48、由软件FTP服务器:服务器: ftp:/补充:如何在网上获取考研信息1.考研信息包含的内容 考研信息按其透明程度可分为三类:公开信息、半公开信息和灰色信息。(1)公开信息 通过各种渠道公开传播,可以轻易获取,包括国家考研政策、招生单位特殊规定、专业目录、招生简章、考研辅导机构的辅导信息等。(2)半公开信息 不对外公开宣传,但一般只要跑一趟,问一问,也就可以了解到,如公费、自费比例,专业课程辅导情况等。(3)灰色信息 原则上不公开,但只要努力搜集,仍可以合法获得,例如,专业考试命题范围、题型,招生单位的破格录取信息,录取过程中的调剂信息等。 在这些信息当中,必须重点收集以下信息。 招生专业目录。
49、这是报考的依据,近几年高校改革,专业调整频繁,更要格外注意,免得你早就瞅准的专业突然改名换姓,不知去向了。招生专业目录一般在每年8月底9月初公布,考生应及时与招生单位联系,索购目录,确定报考方向。 公共课考试内容与题型。这是每年出版的各科大纲详细规定的,因此要高度关注。 专业课考试内容与题型。 录取调剂信息。2.考研信息的传统获取途径 信息的收集是考研准备工作的第一步,为了确保信息的全面、及时、准确,一定要注意多渠道收集。 (1)报刊、电视、网络等大众媒体。提供国家有关研究生招生、考试的政策一般都要通过媒介正式公布。 (2)招生单位。包括研究生招生办公室、准备报考的院系以及导师。他们往往会给你
50、提供一些权威、切实的信息。 (3)人际网络。例如:刚刚考取该专业的研究生、专业导师等。你可以从他们那里获得一些详实信息。 (4)有关文字材料。例如:研究最近5年的专业试题,就能粗略地发现考试范围、命题思路。 (5)权威的考研辅导班。规模较大、开办时间较长的辅导班,往往拥有经验比较丰富的信息,这对考研很有帮助。3.网上考研信息 随着研究生教育规模的扩大,高校之间开始展开研究生招生的竞争,很多高校在研究生招生中开始主动出击,像高考招生一样各施手段,宣传自我,展示风采。许多高校在网上建立了研究生招生主页,通过网络发布研究生招生的信息,向全国考生提供招生专业目录,解答常见问题,同时部分高校院系还为考生