1、人类已进入一个崭新的信息时代 数据库中存储的数据量急剧膨胀 需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究。随着大量数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人
2、工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山数据矿山信息金块信息金块数据挖掘工具数据挖掘工具数据挖掘是从大量数据中提取或“挖掘”知识。与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(Knowledge Discovery from/in Database,KDD)知识提取(Knowledge extract)数据/模式分析(Data/Model analysis)。数据考古 数据捕捞技术上的定义商业角度的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知
3、道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。啤酒与尿布啤酒与尿布上海海关走私上海海关走私机票销售机票销售手机手机VIPVIP客户客户知识 目标数据 已预处理 数据 变换后 数据 模式 数据 筛选 预处理 变换 数据挖掘 解释/评价 1.数据准备:了解数据挖掘应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。2.数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关
4、处理。3.数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。4.数据变换:根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。5.确定数据挖掘目标:根据用户的要求,确定数据挖掘要发现的知识类型。因为对数据挖掘的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。6.选择算法:根据确定的任务选择合适的知识发现算法,包括选取合适的模型和参数。7.数据挖掘:这是整个过程中很重要的一个步骤。运用前面选
5、择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。8.模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。9.知识评价:将发现的知识以用户能了解的方式呈现给用户。v在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个KDD过程的效果与效率。数据挖掘任务有两类:第一类是预测性挖掘任务预测性挖掘任务:在当前数据上
6、进行推断,以进行预测;第二类是描述性挖掘任务描述性挖掘任务:刻划数据库中数据的一般特性(相关、趋势、聚类、异常)。1、预测建模(predictive modeling)a a 分类分类(classfication):(classfication):用于预测离散的目标变量例如:预测一个web用户是否会在网上书店买书b b 回归回归(regression):(regression):用于预测连续的目标变量例如:预测某股票的未来价格2、关联分析(association analysis)用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。关联分析的目标是以有效的方式提
7、取最有趣的模式。例:找出相关功能的基因组 识别一起访问的web页面 理解地球气候系统不同元素之间的联系3、聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。应用对相关的顾客分组找出显著影响地球气候的海洋区域图像分割压缩数据4、异常检测(anomaly detection)异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。应用检测欺诈网络攻击疾病的不寻常模式 知识管理知识管理(Knowledge Management)是一项在1990年代中期开始在全球崛起的学术与商业应用主题,针对个人及社群所拥有的显性知
8、识和隐性知识的确认、创造、掌握、使用、分享及传播进行积极及有效的管理。按层级可分为资料(数据)、信息、知识及智慧四个阶段,而知识的形成则是透过收集一些资料,再从资料中找出有用的信息,利用这些信息加上自己的想法及做法,最后产生出知识,而智慧则是以知识为基础加上个人的应用能力加以运用于生活上。智慧知识信息资料知识小组透过行动,应用来创造价值开创价值的直接材料有目的地整理来传达意念定量显示事实知识时代工业时代农业时代劳力资金知识土地 科学技术发展越快,人类按照自己需要创造资源的能力就越大,那时唯一重要的资源就是信息和知识,知识将是未来的贸易中心。美国的知识管理学者托伏勒企业生存发展之根本金融资本物质
9、资源企业运作知识知识经济时代知识经济时代资源和财富 竞争竞争市场竞争越来越激烈,创新的速度加快 顾客导向顾客导向企业要为客户创造价值 工作流动性工作流动性雇员的流动性加快,企业有失去其知识基础的风险 环境不确定性环境不确定性在动态的不确定环境下,技术更新速度加快,学习已成为企业得以生存的根本保证,组织成员获取知识和使用知识的能力成为组织的核心技能 全球化的影响全球化的影响全球化经营要求企业具有交流沟通能力以及知识获取、知识创造与知识转换的能力。知识管理是通过管理与技术手段,使人与知识紧密结合,让知识的沉淀、共享、学习、应用和创新这个“知识之轮”循环转动,并通过知识共享的文化,提高企业的效益和效
10、率,为企业创造价值,赢得竞争优势。u知识管理是企业对其所拥有的知识资源进行管理的过程,其核心的管理对象是知识;u让知识沉淀、知识共享、知识学习、知识应用、知识创新等运转环节(简称为“知识之轮”)循环运转,才能使知识指导行动,不断地产生价值;u文化、管理、技术是企业驱动“知识之轮”的三个关键要素。u认知 主要任务是统一企业对知识管理的认知,梳理知识管理对企业管理的意义,评估企业的知识管理现状。u规划 主要是通过对知识管理现状、知识类型的详细分析,并结合业务流程等多角度,进行知识管理规划。规划规划制度化制度化认知认知试点试点推广推广知识链u 试点 此阶段是第二阶段的延续和实践,按照规划选取适当的部
11、门和流程依照规划基础进行知识管理实践。并从短期效果来评估知识管理规划,同时结合试点中出现的问题进行修正。u推广 在试点阶段不断修正知识管理规划的基础上,知识管理将大规模在企业推广,以全面实现其价值。u制度化 制度化阶段既是知识管理项目实施的结束,又是企业知识管理的一个新开端,同时也是一个自我完善的过程。u静态知识管理系统:是企业知识管理的初级阶段,主要解决企业中存在的大量规范制度、文件、档案、资料等各类文档的管理;u动态知识管理系统:主要是实现知识的动态管理,解决文档的版本控制、项目及其它应用系统中的知识如何统一管理、知识如何快速复制与传播等,通过动态知识管理加速知识在企业的沉淀、共享与应用,提高员工的工作效率;u知识应用整合门户:这个阶段强调人、流程和知识的互动,进一步细化动态知识的管理,实现在流程执行过程中沉淀知识、关联知识,使员工适时得到所需的知识,帮助员工做对事、做好事,如企业知识门户等;u智力资产管理系统:这个阶段将知识当作企业第四大资产进行全生命周期的管理,实现人力资本、组织资本、关系资本的统一管理、评估与优化。