数据挖掘软件—重要研究方向课件.ppt

上传人(卖家):晟晟文业 文档编号:5224319 上传时间:2023-02-18 格式:PPT 页数:28 大小:2.49MB
下载 相关 举报
数据挖掘软件—重要研究方向课件.ppt_第1页
第1页 / 共28页
数据挖掘软件—重要研究方向课件.ppt_第2页
第2页 / 共28页
数据挖掘软件—重要研究方向课件.ppt_第3页
第3页 / 共28页
数据挖掘软件—重要研究方向课件.ppt_第4页
第4页 / 共28页
数据挖掘软件—重要研究方向课件.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

1、数据挖掘软件与工具数据挖掘软件与工具2023-2-18知识管理与数据分析实验室知识管理与数据分析实验室1 数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。2023-2-18知识管理与数据分析实验室知识管理与数据分析实验室23代代次次特征特征DM算法支算法支持持集成性集成性分布计算分布计算数据模型数据模型可视化功能可视化功能1作为一个独立的应用和移动数据/各种计算设备的数据联合 独立的系统单个机器

2、 向量数据无2和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据 基本图表3和预测模型系统集成 多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据较复杂多维图形及动画4和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型 交互式可视化挖掘流程设计和结果展示功能数据挖掘功能数据挖掘估计Estimation分类Classification预测Prediction关联规则Associat

3、ion Rules描述与可视化Description and Visualization聚类Cluster数据挖掘模型的分类 数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Prediction)相关分析(Dependency analysis)5数据挖掘技术的分类6数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放

4、贷款,发放多少 结果描述:(决策树)7收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准数据挖掘的典型结果电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)8输 入流失概率(0.87)输 出男293000元/月套餐A130元/月数据挖掘的典型结果零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图)9数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)10数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)11Business U

5、nderstanding 商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划1商业目标的确认数据挖掘目标的确定数据挖掘成功的标准Data Understanding 数据理解过程 数据源情况 数据处理范围 数据源访问情况 数据描述 数据质量描述 基本统计值/汇总值 数据探索 数据分布 相关性分析 缺失值处理 空值处理 奇异值处理2收集数据数据描述数据探索数据质量检查Data Prepar

6、ation 数据准备过程 数据整合 多个数据表的数据联合 数据的汇总和聚合 数据选择 记录的选择和排除 数据集合构成:测试集,检验集 数据转换 函数转换 标准化处理 离散化处理 数据清洗 数据缺失值处理 数据派生 新变量的生成3数据合并和清洗数据选择数据转换Modeling 数据建模过程 选择合适的建模技术 数据预处理的情况 依赖于数据挖掘问题类型和输出形式 构建模型训练环境 训练样本的构建 模型建立 选择初始化参数设置 模型估计 考虑过训练的情况 误差分布的调查 模型参数修正及其原因4依据目标选择模型构建模型训练环境模型建立和评估Evaluation 模型评估过程 模型评估 根据专家的知识和

7、经验进行人工评估 从商业角度来评价结果的有效性 定义参照对象 计算升益曲线(Lift Curve)期望的投资回报率(ROI)对整个数据挖掘过程进行回顾 决定下一步骤 模型发布的时机 发布框架结构 进一步改进模型5依据测试集模型评估不同模型的检验标准技术标准和商业准则Deployment 模型发布过程 数据挖掘结果的发布方式 模型的结果输出到数据库 形成简单的报表 结果转化为可解释的业务规则 在线实时地模型评分过程 数据的输入输出 与原有业务系统的集成 实时数据的来源和结果反馈 模型运用的模式 实时处理 批处理 自动化问题(周期)6结果的发布方式数据挖掘结果的运用数字到业务知识转化Clement

8、ine的软件构成 Clementine Client;Clementine Server;Clementine Batch;SPSS Data Access Pack;Clementine Solution Publisher(Optional)。18Clementine的两种运行方式单机版运行单机版运行以下情况必须使用单机版运行:以下情况必须使用单机版运行:数据存储在本机,且不能在网络数据存储在本机,且不能在网络上共享;上共享;机器不联网;机器不联网;无无Clementine Server可供使用。可供使用。以下情况可以使用单机版运行:以下情况可以使用单机版运行:要处理的数据量很小(比如:小

9、要处理的数据量很小(比如:小于于2M)并且数据存储在单机或可)并且数据存储在单机或可到达局域网处;到达局域网处;单机内存、硬盘相对要处理的数单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满据量来说足够大,并且速度也满足要求。足要求。19C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处;单机速度慢,Clementine Server运行的机

10、器配置高。Clementine的系统结构20Clementine的三层结构:1、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。Clementine Client和Clementine Server通过SDL(Stream Description Language)之间进行信息交

11、换,Clementine Server和Database通过SQL语句进行信息交换。Clementine运行的两种方式 图形界面方式图形界面方式 适用操作系统适用操作系统 Windows系列系列 特点:特点:图形化界面图形化界面 与客户直接交互与客户直接交互 适合交互式分析过程适合交互式分析过程21命令行方式使用操作系统 Windows系列 Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:1.运行耗时较长的建模过程2.希望在后台运行一些耗时较长的数据准备3.过程希望按照一定的时间定期运行(比如每周、每月等)4.希望把Clementine(数据挖掘过

12、程)运行过程嵌入应用系统中Clementine的界面和设计思路 可视化界面可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理四个区域分别是建模区、结点区、模型描述区、项目管理区区 通过连接结点构成数据流建立模型通过连接结点构成数据流建立模型 ClementineClementine通过通过7 7类结点的连接完成数据挖掘工作,它们类结点的连接完成数据挖掘工作,它们是:是:Source(源结点):Database、Var.Files等 Record Ops(记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点

13、):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等22七大类节点 按功能分为七大类节点 数据源节点 记录处理节点 变量处理节点 图形节点 模型节点 输出节点 导出节点图形 基本版产生图形种类记录和变量的处理 对于记录的处理 对于变量的处理 DEMO 数据探索 数据清洗丰富的数据挖掘模型聚类算法模型关联分析模型决策树模型其它模型回归模型Oracle DMIBM DB2 Intelligent MinerSQL SERVER 2005 Analysis Services 使用演示2023-2-18知识管理与数据分析实验室知识管理与数据分析实验室28

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据挖掘软件—重要研究方向课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|