1、数据库与数据挖掘数据库与数据挖掘信息科学与技术学院曾献辉学时:学时:共共32学时学时内容:内容:数据库基础知识与高级理论数据库基础知识与高级理论 数据仓库理论与应用数据仓库理论与应用 数据挖掘理论与算法数据挖掘理论与算法 考核:考核: 大作业大作业+考试考试 作业题目见作业题目见Word文档,作业要求如下:文档,作业要求如下:1. 题目题目任选,只要总分为任选,只要总分为100分即可。分即可。2. 解答过程应该条理清晰,层次分明,版面美观。解答过程应该条理清晰,层次分明,版面美观。3. 每道题解答过程正确,分析到位即为满分,否则每道题解答过程正确,分析到位即为满分,否则将酌情扣分。将酌情扣分。
2、4. 做好课堂上进行汇报交流的准备。做好课堂上进行汇报交流的准备。5. 题目尽量独立完成,即使一起探讨完成,也不能题目尽量独立完成,即使一起探讨完成,也不能出现文字或代码大量相同的情况。如果因答案雷出现文字或代码大量相同的情况。如果因答案雷同而被认定为抄袭,该题分数最高为满分的一半。同而被认定为抄袭,该题分数最高为满分的一半。6. 作业做好后随时可以上交。最晚第作业做好后随时可以上交。最晚第12周必须提交。周必须提交。 4第1讲 概论思考以下问题: 1. 何谓数据库?数据库有什么作用? 2. 何谓数据仓库?数据仓库有什么作用? 3. 数据库与数据仓库的区别与联系。 4. 数据库与数据仓库有哪些
3、主要理论与技术? 5. 何谓数据挖掘?数据挖掘的类型与经典算法。51. 数据库的概念 Briefly, a database is a tool for storing and manipulating information efficiently and effectively. Efficiently and effectively means that the data is protected from accidental loss or corruption, that it doesnt use more resources (human or computer) than n
4、ecessary, and that it can be retrieved in sensible ways within acceptable performance constraints.61. 数据库的概念71. 数据库的概念 凡使用数据库技术管理数据(信息)的系凡使用数据库技术管理数据(信息)的系统都称为数据库应用系统。统都称为数据库应用系统。 一个数据库应用系统应携带有较大的数据一个数据库应用系统应携带有较大的数据量,否则它就不需要数据库管理。量,否则它就不需要数据库管理。 数据库应用系统按其实现的功能可以被划数据库应用系统按其实现的功能可以被划分为数据传递系统、数据处理系统和管
5、理分为数据传递系统、数据处理系统和管理信息系统。信息系统。 82. 数据库的用途 存放数据存放数据 简单的批处理简单的批处理 联机事务处理联机事务处理(On-Line Transaction Processing) OLTP 支持用户日常业务工作,为企业业务快支持用户日常业务工作,为企业业务快速、准确地处理提供了条件速、准确地处理提供了条件 93. 数据仓库的概念 Abbreviated DW, a collection of data designed to support management decision making. Data warehouses contain a wide
6、variety of data that present a coherent picture of business conditions at a single point in time. A database designed to support decision making in an organization. Data from the production databases are copied to the data warehouse so that queries can be performed without disturbing the performance
7、 or the stability of the production systems.103. 数据仓库的概念 一个面向主题的、集成的、随时间变化一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管的、非易失性数据的集合,用于支持管理层的决策过程。理层的决策过程。特性: (1)面向主题性 (2)数据集成性 (3)数据的时变性(4)数据的非易失性 (5)数据的集合性(6)支持决策作用。114. 数据仓库的作用 联机分析处理(On-Line Analytical Processing) OLAP 提供决策支持的信息 信息的归纳,提取(数据挖掘) 帮助企业进行经营管理决策分析,提高
8、管理决策的质量商务智能:将数据仓库、联机分析处理和数据挖掘三者应用于商务活动中125. 案例分析 某大型连锁超市的业务涵盖了3个省范围内的1000多家门市。每个门市都有较完整的日用品和食品销售部门,包括百货、杂货、冷冻食品、奶制品、肉制品和面包食品等,大约5万多种。其中大约45000种商品来自外部生产厂家,并在包装上印有条形码。每个条形码代表了唯一商品。 请你为该超市进行信息化建设规划,使该系统既能满足超市日常业务工作的需要,又能为该超市提高市场竞争能力。135. 案例分析问题分析: 1. 超市日常业务包括:进货,销售,库存等主要工作,对这些过程中所涉及的信息需要保存和维护,建立一个以数据库为
9、核心的信息管理系统完全能满足日常业务的工作需要; 2. 如何提高超市的市场竞争能力似乎与信息化无关,但与管理人员交流后,145. 案例分析问题分析: 从以下几个角度考虑可提高企业竞争力: (1)超市营销策略 如何通过商品的采购、储存和销售最大限度地获取利润 对商品的盈利分析,了解不同商品的销售盈利状态,确定企业销售的重点155. 案例分析问题分析: (2)超市商品的库存分析 如何能够在合适的时候销售合适的产品 在不出现脱销的情况下尽可能减少商品库存的库存成本 根据商品的库存量和商品的库存成本确定商品的销售价格165. 案例分析问题分析: (3)超市商品的采购分析 如何分析热销商品,尽可能采购热
10、销商品 (4)超市客户关系分析 如何对客户群体进行划分,对不同客户群体采用不同的营销策略175. 案例分析问题分析: 通过以上的分析,为了提高超市市场竞争能力,靠数据库应用系统是无法完成的。 而数据仓库正是为了解决这些问题而发展起来的。186. 区别与联系对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计
11、量以秒、分钟、甚至小时为计量单位196. 区别与联系联系: 数据库的建设是为了应付企业日常业务处理的需要 数据仓库的建设是企业经营管理决策的需要,必须基于比较完善的信息化架构。没有数据库,不可能有数据仓库。207. 数据库的主要理论与技术基础知识: 数据库的三级模式,两层独立 数据模型的建立 现实世界-概念模型-数据模型 概念模型的表达 E-R图 数据模型的三要素 关系模型 关系代数,SQL语言217. 数据库的主要理论与技术高级知识: 规范化理论 关系模式的分解 Armstrong 公理 数据库的安全技术 数据库的完整性技术 数据库的并发控制技术 数据库的恢复技术228. 数据仓库的主要理论
12、与技术 数据仓库的开发模型 星型模型、雪花模型 OLAP技术 传统数据挖掘技术 现代数据挖掘技术 数据仓库的开发应用过程 数据仓库的应用与管理239.数据挖掘 什么是数据挖掘?什么是数据挖掘?249.数据挖掘259.数据挖掘269.数据挖掘279.数据挖掘2810.数据挖掘的基本任务2910.数据挖掘的基本任务3010.数据挖掘的基本任务3110.数据挖掘的基本任务3210.数据挖掘的基本任务3310.数据挖掘的基本任务3410.数据挖掘的基本任务3510.数据挖掘的基本任务3610.数据挖掘的基本任务3710.数据挖掘的基本任务3810.数据挖掘的基本任务3910.数据挖掘的基本任务4010
13、.数据挖掘的基本任务4111.数据挖掘的十大经典算法一、C4.5C4.5是机器学习算法中的一个分类决策树算法。二、The k-means algorithm 即K-Means算法k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(k n)。4211.数据挖掘的十大经典算法三、 Support vector machines支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。四、The Apriori algorithmApriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。4311.数据挖掘的十大
14、经典算法五、最大期望(EM)算法在统计计算中,最大期望 (EM,ExpectationMaximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法。六、 PageRankPageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里佩奇(Larry Page)。4411.数据挖掘的十大经典算法七、AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。八、 kNN: k-nearest neighbor classificationK最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。4511.数据挖掘的十大经典算法九、 Naive Bayes在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。 十、 CART: 分类与回归树CART(Classification and Regression Trees)