1、2023-5-41第11章 半结构化数据模型第三部分第三部分 半结构化数据的半结构化数据的建模和程序设计建模和程序设计 第11章 半结构化数据模型 第12章 XML程序设计语言2023-5-42第11章 半结构化数据模型第11章 半结构化数据模型11.1 半结构化数据11.2 XML11.3 文档类型定义11.4 XML模式2023-5-43第11章 半结构化数据模型11.1 11.1 半结构化数据半结构化数据半结构化数据(semistructured-data)模型在数据库系统中有着独特的地位:1.是一种适于数据库集成(integration)的数据模型;2.是一种标记服务的基础模型,用于在
2、Web上共享信息,如:XML;2023-5-44第11章 半结构化数据模型11.1 11.1 半结构化数据半结构化数据11.1.1 为何需要半结构化数据模型11.1.2 半结构化数据表示11.1.3 信息集成与半结构化数据2023-5-4511.1 半结构化数据11.1.1 为何需要半结构化数据模型为何需要半结构化数据模型关系数据库系统提供的是关系模型,描述数据的模式是关系模式;半结构化模型,更加灵活,因为他是“无模式”、“自描述”的。半结构化数据自身携带了模式信息。2023-5-4611.1 半结构化数据11.1.2 半结构化数据表示半结构化数据表示半结构化数据是节点(node)的集合,节点
3、分为叶子节点(leaf)和内部节点(interior);叶子节点表示具体数据,数据的类型是数据库中提供的数据类型,如:数字型、字符串型等;内部节点至少有一条向外的弧,弧上都有一个标签(label),该标签指明连接的节点之间的关系。有一个根节点,没有进入弧。2023-5-4711.1 半结构化数据11.1.2 半结构化数据表示半结构化数据表示Movies(title,year,length,genre,studioName,producerC)名称 年份 长度(分钟)流派 电影公司名称 导演证书号MovieStar(name,address,gender,birthdate)姓名 住址 性别 生
4、日StarsIn(movieTitle,movieYear,starName)影片名称 年份 主演姓名MovieExec(name,address,cert,netWorth)导演姓名 住址 导演证书号 净资产Studio(name,address,presC)电影公司名称 地址 老总证书号例如:电影数据库模式如下,电影数据库对应的半结构化数据表示。2023-5-4811.1 半结构化数据11.1.2 半结构化数据表示半结构化数据表示例如:电影数据库对应的半结构化数据表示如下:不能说的秘密2007101剧情安乐影片有限公司56334titlelengthyeargenrestudionamep
5、roducercrowmoviesrootrowrowmoviestarrowrowstudiorowrow2023-5-4911.1 半结构化数据11.1.2 半结构化数据表示半结构化数据表示例如:访问movies关系中的电影名称的路径表达式为:/movies/row/title不能说的秘密2007101剧情安乐影片有限公司56334titlelengthyeargenrestudionameproducercrowmoviesrootrowrowmoviestarrowrowstudiorowrow2023-5-41011.1 半结构化数据11.1.3 信息集成与半结构化数据信息集成与半结
6、构化数据半结构数据的灵活与自描述性使其成为数据交换和信息集成的工具;在互联网环境下得到广泛应用;在信息集成中等到广泛应用。集成模型如下:历史数据库历史数据库XML接口应用2023-5-411第11章 半结构化数据模型11.2 XML11.2 XMLXML(Extensible Markup Language,可扩展标记语言)是一种基于标签的、最初是为“标记”文档而设计的符号语言;11.2.1 语义标签11.2.2 有模式和无模式的XML11.2.3 格式规范的XML11.2.4 属性11.2.5 连接元素的属性11.2.6 命名空间11.2.7 XML和数据库2023-5-41211.2 XM
7、L11.2.1 语义标签语义标签XML中的标签是用尖括号括起来的文本,如:、XML中标签是配对的,如:配对标签和配对标签之间的内容称为XML元素(element)。2023-5-41311.2 XML11.2.2 有模式和无模式有模式和无模式XMLXML可以应用于两种不同的模式:1.格式规范的XML允许用户自定义标签,就像半结构化数据中的弧标签一样。2.合法的XML包括一个DTD(文档类型定义),它指定了允许使用的标签并给出了如何嵌套它们的语法。2023-5-41411.2 XML11.2.3 格式规范的格式规范的XML模式规范的XML文档是由一行XML声明和XML元素组成,如:不能说的秘密
8、2007 101 剧情 安乐影片有限公司 56334 2023-5-41511.2 XML11.2.4 属性11.2.5 连接元素的属性11.2.6 命名空间2023-5-41611.2 XML11.2.7 XML和数据库和数据库数据库中的关系可以转换为XML数据,如:开放实验的内容;通过XML进行信息集成和信息共享。2023-5-417第11章 半结构化数据模型2023-5-418第11章 半结构化数据模型电影数据库模式Movies(title,year,length,genre,studioName,producerC)名称 年份 长度(分钟)流派 电影公司名称 导演证书号MovieStar(name,address,gender,birthdate)姓名 住址 性别 生日StarsIn(movieTitle,movieYear,starName)影片名称 年份 主演姓名MovieExec(name,address,cert,netWorth)导演姓名 住址 导演证书号 净资产Studio(name,address,presC)电影公司名称 地址 经理证书号本章示例中使用的电影数据库模式: