1、数据挖掘课程介绍课程介绍数据挖掘的历史:n数据分析历史悠久,我们一直使用数据帮助我们n每一次信息的爆炸增长会带来巨大影响n过往的数据n如今的数据课程介绍数据挖掘课程:n这是一门什么样的的课程?介绍数据分析方法n在这门课我们需要解决什么样的问题?n我们要学习的工具课程目标数据挖掘课程目标:n数据挖掘的基本理论n数据挖掘的实现过程n常用的数据挖掘的算法n基于python的数据挖掘使用n数据挖掘方向的比赛n企业级的数据挖掘应用案例课程介绍教学计划:n32+32=64,理论+实践n为什么1:1课程地位专业方面:n最重要的课程之一,承接着整个大数据专业n我们学大数据是为了分析使用课程地位国家政策:n“十
2、三五”国家信息化规划两次提到大数据挖掘分析:大数据挖掘分析等关键技术和核心软硬件上取得突破n2017年李总理的政府工作报告:一方面要加快培育新材料、人工智能、集成电路、生物制药、第五代移动通信等新兴产业,另一方面要应用大数据、云计算、物联网等技术加快改造提升传统产业,把发展智能制造作为主攻方向。数据挖掘技术背景行业发展:n各大公司的基于机器学习的发展:谷歌,百度,阿里,腾讯,科大讯飞数据挖掘的课程要求先导知识:n有一定的统计学基础n有一定编程基础n有一定的自学能力数据挖掘的课程要求考核考勤和教材:n平时成绩+期末上机n数据挖掘概念与技术n数据挖掘导论课程总体提纲和学时安排章次各章标题名称讲授学
3、时第一章数据挖掘概述3第二章pandas3第三章机器学习3第四章分类算法3第五章回归算法4第六章聚类算法3第七章集成学习3第八章推荐算法3第九章图像数据分析4第十章文本数据分析3合计32第一章 数据挖掘概论报告人:曙光瑞翼教育品牌部时 间:2018年8月16日目 录数据时代数据挖掘概念数据挖掘的案例数据挖掘的应用01020304习题051.1 数据时代在facebook有40亿的信息扩散会有60张照片上传到网络ONE SECONDONE SECONDONE MINUTEONE MINUTEONE DAYONE DAY会有60小时视频上传到视频网站youtube每个智能手机用户平均会安装65个应
4、用有2940亿封邮件发出,相当于美国两年的纸质信件数量发出的社区帖子达200万个,相当于时代杂志770年的文字量互联网产生的全部内容可以刻满168亿张DVD1.1 数据时代马云在2017年中国国际大数据产业博览会的“机器智能”高峰对话会上演讲 n在大数据时代,未来30年将重新定义“变革”。n在大数据时代,人类获得数据能力远远超过大家想象,我们对世界的认识要提升到新的高度。1.1 数据时代马云在2017年中国国际大数据产业博览会的“机器智能”高峰对话会上演讲 n你们知道购买最大的内衣罩杯的消费者是在哪几个省?我这儿都有。最小的是哪个省?1.1 数据时代数据挖掘发展的动力需要 n数据爆炸问题-数据
5、采集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库数据仓库或其他信息库中以待分析。n我们拥有丰富的数据,但是缺乏有用的信息1.1 数据时代数据挖掘的提出n数大批成熟的业务信息系统投入运行n信息系统多年运行,积累了海量的数据1.1 数据时代数据挖掘的提出1.2 数据挖掘概念什么是数据挖掘n数据挖掘是从数据中,发现其有用的信息,从而帮助我们做出决策(广义角度)1.2 数据挖掘概念什么是数据挖掘n数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,寻找其规律的技术,结合统计学、机器学习和人工智能技术的综合的过
6、程(技术角度)1.2 数据挖掘概念数据挖掘技术n统计学n机器学习n统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。1.2 数据挖掘概念机器学习n人工智能棋手alphago先后战胜了两位顶尖围棋高手n九段李世乭以总比分1:4落败和九段棋手柯洁0:3落败nAlphaGo FannAlphaGo LeenAlphaGo Master nAlphaGo Zero1.2 数据挖掘概念数据挖掘要做什么n数据挖掘的两大基本目标是预测和描述数据n其中预测的计算机建模及实现过程通常被称为:n监督学习(supervised learnin
7、g):从标记的训练数据来推断一个功能的机器学习任务。1.2 数据挖掘概念数据挖掘要做什么n数据挖掘的两大基本目标是预测和描述数据n描述的则通常被称为:n无监督学习(unsupervised learning):根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。往更细分,数据挖掘的目标可以划分为以下这些:1.2 数据挖掘概念数据挖掘要做什么n数据挖掘的两大基本目标是预测和描述数据1.2 数据挖掘概念预测与描述n监督学习主要包括:分类-将样本划分到几个预定义类之一回归-将样本映射到一个真实值预测变量上n无监督学习主要包括:聚类-将样本划分为不同类(无预定义类)关联规则发现-发现数据集中
8、不同特征的相关性。1.3 数据挖掘的案例例子n垃圾电子邮件的分类n思考:人是如何进行分类的呢?1.3 数据挖掘的案例例子n股价走势预测n思考:你是如何进行价格预测的呢?1.3 数据挖掘的案例例子n客户群体的划分,大数据杀熟n思考:你是如何进行区别对待的呢?1.3 数据挖掘的案例例子n推荐商品,JDn思考:你有过销售经验吗?1.4 数据挖掘应用数据挖掘的价值n沃尔玛基于每个月亿万的网络购物数据,并结合社交网络上有关产品的评分,开发机器学习语义搜索引擎北极星,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元1.4 数据挖掘应用数据挖掘的价值n农夫山泉用大数据卖矿泉水n在强大的数据分析
9、能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。1.4 数据挖掘应用数据挖掘的价值n百合网的大数据n百合网提出的心灵匹配算法(可以看到两个人心灵的契合程度)1.4 数据挖掘应用数据挖掘的其他应用领域n金融领域n医疗领域n交通领域n地理信息领域1.5 习题讨论下列每项活动是否是数据挖据任务。a)根据性别划分公司的顾客。b)根据可赢利性划分公司的顾客。c)计算公司的总销售额。d)按学生的标识号对学生数据库排序。e)预测掷一对骰子的结果。f)使用历史记录预测某公司未来的股票价格。g)监视病人心率的异常变化。h)监视地震活动的地震波。i
10、)提取声波的频率1.5 习题a否。这是一个简单的数据查询。b否。这是一种会计计算、应用程序的门限值,然而预测盈利的新客户将是一种数据挖掘。c否。一个简单的数据查询。d否。一个简单的数据查询。e否。既然是公正的,这是一种概率的计算。F是。我们可以通过建立模型预测未来的持续价值的股票价格。G是。我们将构建一种类型为正常的心率和当异常心率的行为发生时报警。这将涉及数据挖掘的领域被称为异常检测。这也可以看作是一种分类的问题,比如我们例子中正常和不正常两种心率的行为。H是。在这种情况下,我们将构建模型的不同类型的地震活动。这一例子说明,在区域的数据挖掘已知分级。I否。这是信号处理。感谢您的观赏T H A N K Y O U F O R W A T C H I N G