1、第5章 数 据 查 询5.1 XML简介简介5.2 XML语法与结构语法与结构5.3 命名空间命名空间5.4 文档类型定义与校验文档类型定义与校验5.5 XML文档样式转换文档样式转换5.6 XML文档的解析文档的解析【学习提示】与网站设计技术刚刚兴起的时候不同,现在学习网站设计已经无法绕开XML技术了。从名字就可以看出,XML与HTML有一定的相关性,它们都来自同一家族SGML。随着网站技术的广泛应用,单纯的HTML已无法满足应用的需求,XML技术临危受命,担当起打破技术瓶颈、提供扩展能力的重要角色。目前,XML不仅在网站设计的前台、后台发挥着重要的作用,而且已广泛应用于互联网、物联网、大数
2、据和云计算等重要领域。为了使异构系统间的数据交换更加容易实现,W3C于1998年正式推出了可扩展标记语言(Extensible Markup Language,XML)。作为标准通用标记语言(SGML)经过优化后的一个子集,XML具有简明的结构、良好的可扩展性、通用性和开放性,因而逐步成为信息交换和共享的重要手段。目前,XML已被广泛地应用于网站开发中的许多环节,包括服务器配置、业务流程描述、程序代码编写和数据库接口设计等方面。5.1 XML简介简介XML的产生与HTML在应用过程中产生的瓶颈问题直接相关。虽然HTML是Web的“数据类型”,但同时还具有如下不足:(1)HTML是专门为描述主页
3、的表现形式而设计的,它疏于对信息语义及其内部结构的描述,不能适应日益增多的信息检索要求和存储要求。(2)HTML对形式的描述能力实际也还是非常不够的,它无法描述矢量图形、科技符号和一些其他的特殊显示效果。(3)HTML的标签日益臃肿,文件结构混乱而缺乏条理,导致浏览器的设计越来越复杂。HTML源自于SGML,且后者是描述各种电子文件结构及内容的成熟的国际标准,因此SGML便很自然地成为解决HTML瓶颈问题的思路。但SGML并非为Internet应用而设计,它的体系也太过复杂和庞大,很难被Internet所广泛使用。于是,经过多次国际会议和多个国际组织的努力,于1998年形成了针对Interne
4、t进行优化的SGML“子集”XML。XML去除了SGML的繁杂而保持其优点,使其可以方便地应用于各种基于Internet的系统中。XML文档的层次结构容易被软件所解析,同时,它还非常易于人的阅读。图5-1记事本中的代码给出了一所大学的院系设置。图5-1 典型的XML代码XML继承了SGML具有的可扩展性、结构性及可校验性,这也是与HTML的主要区别:(1)可扩展性方面:HTML不允许用户自定义标识或属性;而在XML中,用户能够根据需要自行定义新的标识和属性名,以便更好地从语义上修饰数据。(2)结构性方面:HTML不支持深层的结构描述;而XML的文件结构嵌套可以复杂到任意程度。(3)可校验性方面
5、:传统的HTML没有提供规范文件以支持应用软件对HTML文件进行结构校验;而XML文件可以包括一个语法描述,使应用程序可以对此文件进行结构确认。虽然XML较HTML具有很多优势,但这并不能得到“XML将取代HTML”的结论。虽然XML也可以用来描述表现形式,但这种描述的方式(具体的标签和语法)也必须通过标准固定下来,而HTML就是这种完成特定任务的“固化”的标准。事实上,W3C确实制定了一个应用标准XHTML,用以规范网页设计。由于XML的开放特性,任何一个信息发布者(包括企业或个人)都可以制定自己的信息描述标准并按这一标准提交XML文档,这会造成相同信息内容的不同格式版本,文档之间也难以相互
6、兼容。这种结果必然制约XML的通用性,阻碍信息的交流。因此,根据不同行业的特点制定一系列XML应用标准是很有必要的。XML的技术标准可分为三个层次:元语言标准、基础标准和应用标准,如图5-2所示。其中,元语言标准是整个体系的核心,包含了XML从SGML中继承和扩展的语言特性;基础标准规定了XML中的公用特征,如命名空间(Namespace)、XML联接(XLink)、架构(Schema)以及文档对象模型(DOM)等,它们是进一步建立 XML应用标准的基础;应用标准是基于文档特性、应用环境和使用方式等特点制定的实用化标准。制定XML应用标准是一个非常庞大的工程,它涉及XML的体系结构、应用环境以
7、及行业特点等问题。因此,许多企业、行业协会和政府部门都参与了标准的制定,并针对不同的应用环境推出了大量的标准。图5-2 XML技术标准体系5.2.1 处理指令XML的处理指令是用来给处理XML文档的应用程序提供信息的。处理指令遵循下面的格式:例如:5.2 XML语法与结构语法与结构例子中的第一个处理指令是由标签描述的XML声明,其中的信息为:该文档遵守XML版本1.0,所使用的编码方式为GB2312(默认为UTF-8);Standalone属性说明文档不需要从外部导入文件。例子中的第二个处理指令指定与XML文件配套使用XSL文件mystyle.xsl。5.2.2 XML元素XML文档的基本单位
8、是元素。元素是一个信息块,它由一个元素名和一个元素内容构成。元素的名称还应遵守如下规则:元素名称中可以包含字母、数字以及其他字符;元素名称不能以数字或“_”(下划线)开头;元素名称不能以“xml”(包括其各种大小写形式)开头;元素名称中不能包含空格;元素名称中间不能包含“:”(冒号)。每一个XML文档都有一个根元素,或称作文档元素,如下面代码中的。Source Code Section of C-Sharp Corner Source Code Section of C-Sharp Corner GDI+source Code Section of C-Sharp Corner Source
9、Code Section of C-Sharp Corner 按照XML元素所包含的内容,可以将XML元素分为以下四种形式:包含数据内容的元素:这些元素中只包含数据。例如:abc。包含子元素内容的元素:元素包含一个或多个子元素。例如:。空元素:元素中既不包含数据内容又不包含子元素。例如:,可以简写为。包含混合内容的元素:元素既包含数据内容又包含子元素。例如:abc。元素中的数据内容通常是一般的字符串,但如果这些字符串的内容与XML文档本身会产生二义性,则需要采用CDATA(character data)来声明。例如:!CDATA 通过这种方式,将整个字符串“”声明为元素的数据内容。空元素看似没
10、有实质意义,但与元素属性配合则可描述具有一定特征的元素。另外,虽然XML的语法支持包含混合内容的元素,但这种形式在数据语义上容易造成混乱,不建议使用。XML与HTML有很多相似性,但在语法上XML比HTML更为严格。所以,在编写XML文档时需要注意下列细节:XML是对大小写敏感的,如和是不同的元素;XML的每一个标签都必须有对应的结束标签,即使是空元素也必须要写一对标签。XML中的元素之间可以嵌套而形成子元素,但不能交叉。例如,This text is bold and italic在XML的语法中是错误的。空格也可以是XML文档的数据内容。5.2.3 元素属性XML属性提供一种定义复杂元素的
11、解决方案。属性由属性名和属性值组成。元素的属性说明只能在元素起始标签或空元素标签中出现,属性值必须放置在一对双引号中,例如:Source Code Section of C-Sharp Corner与元素名一样,属性名也对大小写敏感。如果属性名为“ID”,则说明该属性可以作为元素的索引。对于XML元素来说,属性并不是必需的。有时也可以将相同的信息放到一个子元素中,但对于比较小的上下文信息,使用属性比使用子元素更方便,而且表达的意思也更清晰。命名空间(Namespaces)是XML规范的重要组成部分,它增强了对XML元素或属性的命名方式。采用命名空间方式后,XML的元素名称将由一个前缀名称和一个
12、本地名称组成,它们用冒号分隔。前缀名称映射到指定的统一资源标识符(URI),而在同一个URI中再定义唯一的本地名称,这样的组合可以生成互联网中的唯一名称。5.3 命命 名名 空空 间间有两种类型的URI统一资源定位器(URL)和统一资源名称(URN)都可以用作命名空间标识符,其中URL的方式更为常用。命名空间标识符仅仅是字符串,并不代表在互联网中可以访问到相应的资源。当两个命名空间标识符中的各个字符都完全相同时,它们就被视为相同的。命名空间的语法如下:xmlns:prefix=url of name其中,“xmlns:”是必需的属性,“prefix”是命名空间的别名。例如:Evening Ba
13、tch 可以看出,batch-list、batch等标签在“http:/.ac”空间中定义,别名为ins。也可以使用默认命名空间的声明方式,语法如下:xmlns=一个XML文档中可以有多个命名空间,通过默认命名空间的声明,其作用域中的所有非限定元素名称都将自动与指定的命名空间标识符相关联。下面的代码使用了默认命名空间。Jeff Smith C#35 在这里,“student”来自http:/ 1.0推荐标准包括对文档类型定义的支持,随后W3C通过XML架构扩展了这种功能。5.4 文档类型定义与校验文档类型定义与校验5.4.1 文档类型定义DTD文档类型定义(Document Type Defi
14、nition,DTD)是一套语法规则,它可以作为XML文档的模板,同时也是XML文档的有效性(valid)校验标准。在DTD中可以定义一系列文档规则,包括文档中的元素及其顺序、属性等。当我们打开很多网站的页面源代码时,可能会看到HTML文档的第一行文字如下:这便是XHTML的文档类型定义声明,浏览器根据这一声明决定如何解析页面元素。例如,假定要使用以下XML词汇描述员工信息:Mike2007-12-0242000.00以下DTD文档描述了XML文档的结构:然后,该DTD能够通过一个DOCTYPE声明和原始文档相关联,如下:Monica1997-12-0242000.00可以看到,DTD提供了精
15、确的形式语言用以描述XML文档中的数据元素。在DTD中,每个元素声明都以“”结束,它定义了元素及其内容。元素内容可以是数据内容、子元素内容、空元素或混合内容。DTD采用树状结构来说明数据元素之间的层次关系(或从属关系),并且明确定义了同层元素之间的顺序以及元素重复规则,如规定子元素可以出现一次或多次(+)、零次或多次(*)以及零次或一次(?)。没有这样的操作符意味着子元素必须恰好出现一次。例如:说明至少包含一个作者 说明可以包含多篇参考文献,但也可以没有 说明作者的简历可有可无元素中的子元素也可以采用枚举的方式来规定,表示元素必须包含枚举列表中的一个子元素。例如:表示Payment元素必须包含
16、Cash、Check或Card中的任意一个。DTD不仅可以定义元素结构,还可以定义元素的属性。属性的定义都是以“”结束。在属性声明中可以包含四个部分:元素名、属性名、属性类型和默认值。在属性声明中,#REQUIRED表示文档必须提供此属性的属性值;#IMPLIED表示不必一定为属性赋值;#FIXED规定如果要为此属性赋值就必须使用默认值,因此#FIXED必须与默认值配合使用。下面的代码给出了一个针对订单文档较完整的DTD定义。由上可以看出,使用DTD可定义非常复杂的XML文档规则,这也是XML被广泛使用的技术基础。同时,校验功能也是使用DTD的主要优势。当XML解析器读取该XML文档时,它也能
17、够分析该文档是否符合所关联的DTD的定义。由于DTD语法本身不符合XML的语法规范,所以不能使用标准的XML解析器来处理DTD文档。基于XML的文档定义方式XML架构的产生弥补了这一缺陷。5.4.2 XML架构XML SchemaXML架构(XML Schema)是一种文档类型定义方式,与DTD的最大区别在于XML架构本身就是XML文档。XML架构文档之于XML实例文档如同面向对象系统中对象类之于对象实例。因此,一个XML架构文档往往对应了多个XML实例文档。架构定义中使用的元素来自http:/www.w3.org/2001/XMLSchema命名空间,为使用方便,通常将其赋予别名xsd。XM
18、L架构文件的结构如下:XML架构定义中必须具有一个xsd:schema根元素。根元素可包含的子元素包括xsd:element、xsd:attribute和xsd:complexType等。例如,我们要描述以下这类XML实例文档:Monica 1997-12-02 42000.00可以通过以下XML架构文档来定义:其中,XML实例文档的元素和属性分别使用xsd:element和xsd:attribute元素来定义,而targetNamespace则定义了这些元素和属性的命名空间。在使用 XML架构时,必须全面了解命名空间的作用机制。XML架构也可用来校验XML的有效性。以下是JavaScript
19、代码所给出的一种使用MSXML 4.0来实现这个功能的方法。var sc=new ActiveXObject(MSXML2.XMLSchemaCache.4.0);sc.add(http:/example.org/employee/,employee.xsd);var dom=new ActiveXObject(MSXML2.DOMDocument.4.0);dom.schemas=sc;if(dom.load(employee.xml)WScript.echo(success:document conforms to Schema);elseWScript.echo(error:invali
20、d instance);MSXML解析器是随IE浏览器发布的,但不同版本的解析器在使用时稍有区别。与DTD类似,XML架构也可以用来定义层次结构复杂的XML元素类型。例如,在DTD中定义一个元素如下:该ELEMENT声明定义一个employee元素,先包含一个name元素,然后是一个hiredate元素,最后是一个salary元素。使用XML架构定义相同的元素需要如下代码:可以看出,XML架构的描述较DTD而言要“繁琐”一些,但“繁琐”的方式却可带来更加灵活和强大的文档定义功能。例如,XML架构中可以使用更加丰富的数据类型,从而子元素的出现次数和排序的定义也更加灵活,代码的重用性和可维护性也随
21、之提高。5.5.1 在XML中使用CSSHTML将数据内容与表现融为一体,而XML主要用于数据内容的描述。但当用户希望以一定方式(如网页方式)观看数据时,就需要将XML的表现方式与其内容进行结合。使用CSS可以为XML文档提供样式描述。5.5 XML文档样式转换文档样式转换例如,下面为一个关于音乐CD的XML文档(cd_catalog.xml):Empire Burlesque Bob Dylan USA Columbia 10.90 1985 Hide your heart Bonnie Tyler UK CBS Records 9.90 1988 针对这一XML文档建立一个CSS文件(cd
22、_catalog.css)来说明各个标签的显示方式。其内容如下:CATALOGbackground-color:#ffffff;width:100%;CDdisplay:block;margin-bottom:30pt;margin-left:0;TITLEcolor:#FF0000;font-size:20pt;ARTISTcolor:#0000FF;font-size:20pt;COUNTRY,PRICE,YEAR,COMPANYdisplay:block;color:#000000;margin-left:20pt;在cd_catalog.xml文件中添加CSS说明指令,形成以下文件:在
23、浏览器中展现该XML文档,其结果如图5-3所示。图5-3 XML加上CSS文件在浏览器中的显示可以看出,应用CSS可以描述XML文档的样式,但其效果较为简单。更符合XML自身特点的样式描述可以由XSL来完成。5.5.2 在XML中使用XSL可扩展样式语言(XML Style Language,XSL)可以将XML文件作为原料,使用选择、测试和匹配等方式,将XML转换为目标文档,如HTML。要从XML中提取相关的数据进行样式转换,就要用到XSL提供的模式查询语言。所谓模式查询语言,就是通过相关的模式匹配规则表达式从XML里提取数据的特定语句。模式查询语言可分为三种:选择模式:、和。测试模式:和。
24、匹配模式:。选择模式语句将数据从XML中提取出来,是一种简单获得数据的方法。选择模式语句的元素中都有select属性,它设定了选择的条件。应用XSL选择模式语句找出文档中满足设定条件的元素或元素的集合进行样式转换。例如在XML中有这样的数据:春华秋实橡果我们要读取这三个作者名字,可以按“author/name”方法一个一个地读取,但如果文档中有多个name元素就会变得非常繁琐,XSL提供了简化这种存取数据的语句:。语法如下:用语法读取这三个作者名字的方法如下:模式只是选取标签,并没有取出标签的内容,接着就可以用来获取标签的内容。语法如下:仍以音乐CD的XML文档为例,可以采用XSL对文件进行样
25、式转换。XML文档如下:Empire BurlesqueBob DylanUSAColumbia10.901985 Hide your heartBonnie TylerUKCBS Records9.901988 新建文件cd_catalog.xsl,其内容如下:My CD Collection Title Artist 经过XSL转换后的结果如下,在浏览器中的显示如图5-4所示。My CD CollectionTitleArtistEmpire BurlesqueBob DylanHide your heartBonnie Tyler图5-4 XML文档经过XSL转换后在浏览器中的显示5.6
26、.1 DOM解析器文档对象模型(Document Object Model,DOM)是一个使程序和脚本有能力动态地访问和更新XML文档内容、结构以及样式的平台和语言中立的接口。DOM是对XML文档树形结构的对象描述方法,树的节点是一个个对象。通过存取这些对象就能够存取XML文档的内容。根据DOM,XML文档中的每个成分都是一个树中的节点:5.6 XML文档的解析文档的解析 整个XML文档是一个文档节点;每个XML标签是一个元素节点;包含在XML元素中的数据内容是文本节点;每一个XML属性是一个属性节点;注释属于注释节点。在程序设计中,不同的XML解析器所提供的DOM类库大致相同。以JAXP(J
27、ava API for XML Processing)为例,DOM的基本对象主要有五个:Document、Node、NodeList、Element和Attr,如图5-5所示。图5-5 DOM的基本对象Document对象代表了整个XML的文档,所有其他的Node都以一定的顺序包含在Document对象之内,排列成一个树形的结构。程序员可以通过遍历这颗树来得到XML文档的所有内容,这也是对XML文档操作的起点。我们总是先通过解析XML源文件而得到一个Document对象,然后再来执行后续的操作。此外,Document还包含了创建其他节点的方法,如createAttribut()用来创建一个At
28、tr对象。Node对象是DOM结构中最为基本的对象,代表了文档树中的一个抽象的节点。在实际使用的时候,很少会真正用到Node这个对象,而是用到诸如Element、Attr、Text等Node对象的子对象来操作文档。Node对象为这些对象提供了一个抽象的、公共的根。虽然在Node对象中定义了对其子节点进行存取的方法,但是有一些Node子对象,如Text对象并不存在子节点,这一点是要注意的。NodeList对象代表了一个包含一个或者多个Node的列表。我们可以简单地把它看成一个Node的数组,并通过方法来获得列表中的元素。Element对象代表的是XML文档中的标签元素,继承于Node,亦是Nod
29、e的最主要的子对象。在标签中可以包含属性,因而Element对象中有存取其属性的方法,而任何Node中定义的方法也可以用在Element对象上。Attr对象代表了某个标签中的属性。Attr继承于Node,但是因为Attr实际上是包含在Element中的,并不能被看做Element的子对象,因而在DOM中Attr并不是DOM树的一部分,所以Node中的getparentNode()、getpreviousSibling()和getnextSibling()返回的都将是null。也就是说,Attr其实是被看做包含它的Element对象的一部分,它并不作为DOM树中单独的一个节点而出现。这一点在使用
30、的时候要同其他的Node子对象相区别。CharacterData是文本节点类的接口,其中定义了文本相关的函数,以便实现此接口的类来使用。Text和Comment节点类实现了此接口。XML文档中并不包含CharacterData实例,而只能包含实现了此接口的类实例,如Text节点实例或Comment节点实例。Entity可以是XML中的实体,也可以在DTD中定义一个实体类实例,例如,。需要说明的是,上面所说的DOM对象在DOM中都是用接口定义的,在定义的时候使用的是与具体语言无关的IDL语言。因此,DOM其实可以在任何面向对象的语言中实现,只要它实现了DOM所定义的接口和功能就可以了。同时,有些
31、方法在DOM中并没有定义,是用IDL的属性来表达的,当被映射到具体的语言时,这些属性被映射为相应的方法。5.6.2 SAX解析器SAX(Simple API for XML)并不是由W3C所提出的标准,它是一种技术社区的产物。与DOM比较而言,SAX是一种轻量型的方法。如前面所描述的,采用DOM处理XML文档时需要读入整个XML文档,然后在内存中创建DOM树,并生成每个Node对象。如果XML文档非常大,那么运行的效率和资源的消耗都不够理想。一个较好的替代解决方法就是SAX。SAX是以事件驱动的方式处理XML文档的。也就是说,SAX并不需要一次性读入整个文档,而文档的读入过程也就是SAX的解析过程,如图5-6所示。图5-6 SAX的解析过程解析开始之前,需要向XMLReader注册一个ContentHandler,也就是相当于一个事件监听器,在ContentHandler中定义了很多方法,如startDocument(),它定制了在解析过程中遇到文档开始时应该处理的事情。由XMLReader读入XML文档,并通过parse()方法不断触发相应事件,且把这个事件的处理权代理给ContentHandler,调用其相应的方法进行响应。总的来说,DOM编程相对简单,但是速度比较慢,占用内存多;而SAX编程复杂一些,但是速度快,占用内存少。所以,我们应该根据不同的环境选择使用不同的方法。