1、白话大数据与机器学习白话大数据与机器学习为什么要写这本书为什么要写这本书01为什么要写这本书本书特色本书特色02本书特色读者对象读者对象03读者对象勘误和支持勘误和支持04勘误和支持1 大数据产业大数据产业051 大数据产业 1.1 大数据产业现状01 1.2 对大数据产业的理解021.3.1 供需失衡1.3.2 人才方向1.3.3 环节和工具1.3.4 门槛障碍1.3 大数据人才03 1.4 小结042 步入数据之门步入数据之门062 步入数据之门0102030405062.1 什么是数据2.2 什么是信息2.3 什么是算法2.4 统计、概率和数据挖掘2.5 什么是商业智能2.6 小结3 排
2、列组合与古典概型排列组合与古典概型073 排列组合与古典概型3.1.1 公平的决断扔硬币3.1.2 非古典概型3.1 排列组合的概念3.2.1 双色球彩票3.2.2 购车摇号3.2.3 德州扑克3.2 排列组合的应用示例 3.3 小结4 统计与分布统计与分布084 统计与分布4.2 加权均值4.4 欧氏距离4.6 同比和环比4.1 加和值、平均值和标准差4.3 众数、中位数4.5 曼哈顿距离4 统计与分布D4.10 伯努利分布E4.11 小结A4.7 抽样B4.8 高斯分布C4.9 泊松分布LOGOM.94275.CN4 统计与分布4.1 加和值、平均值和标准差4.1.1 加和值4.1.2 平
3、均值4.1.3 标准差4 统计与分布4.2 加权均值4.2.1 混合物定价14.2.2 决策权衡24 统计与分布4.3 众数、中位数4.3.1 众数4.3.2 中位数5 指标指标095 指标5.1 什么是指标 5.3 小结 5.2 指标化运营5.2.1 指标的选择5.2.2 指标体系的构建1326 信息论信息论106 信息论6.1 信息的定义 6.4 熵6.4.1 热力熵6.4.2 信息熵6.2 信息量6.2.1 信息量的计算6.2.2 信息量的理解6.3 香农公式 51346.5 小结 27 多维向量空间多维向量空间117 多维向量空间7 . 1 向量 和 维度017.1.1 信息冗余7.1
4、.2 维度7 . 2 矩阵 和 矩阵 计 算02 7 . 3 数据 立 方体03 7 . 4 上卷 和 下钻04 7.5 小结05 8 回归回归128 回归8.1 线性回归018.2 拟合028.3 残差分析038.4 过拟合048.5 欠拟合058.6 曲线拟合转化为线性拟合068 回归8.7 小结9 聚类聚类139 聚类9.1 K-Means算法9.4 层次聚类9.2 有趣模式9.5 密度聚类9.6 聚类评估9.3 孤立点9 聚类9.7 小结9 聚类9.6 聚类评估9.6.1 聚类趋势9.6.2 簇数确定9.6.3 测定聚类质量10 分类分类1410 分类010310.1 朴素贝叶斯10.
5、2 决策树归纳10.3 随机森林0204050610.4 隐马尔可夫模型10.5 支持向量机SVM10.6 遗传算法10 分类10.7 小结10 分类10.1 朴素贝叶斯10.1.1 天气的预测10.1.2 疾病的预测10.1.3 小结10 分类10.2 决策树归纳10.2.2 信息增益13210.2.1 样本收集10.2.3 连续型变量10 分类10.4 隐马尔可夫模型10.4.2 前向算法0210.4.1 维特比算法0110.5 支持向量机SVM10 分类10.5.1 年龄和好坏10.5.2 “下刀”不容易10.5.3 距离有多远10.5.6 分不开怎么办10.5.5 超平面怎么画10.5
6、.4 N维度空间中的距离10.5 支持向量机SVM10 分类10.5.7 示例110.5.8 小结210 分类10.6 遗传算法10.6.1 进化过程10.6.2 算法过程10.6.4 极大值问题10.6.3 背包问题11 关联分析关联分析1511 关联分析11.4 小结11.3 稀有模式和负模式11.2 关联分析与相关性分析11.1 频繁模式和Apriori算法11.1.1 频繁模式11.1.2 支持度和置信度11.1.3 经典的Apriori算法11.1.4 求出所有频繁模式 12 用户画像用户画像1612 用户画像 12.3.1 割裂型用户画像12.3.2 紧密型用户画像12.3.3 到
7、底“像不像”12.2.1 结构化标签12.2.2 非结构化标签 0212.2 画像的方法0412.4 小结12.1 标签0112.3 利用用户画像0313 推荐算法推荐算法1713 推荐算法1 3 . 1 推 荐 思路0113.1.1 贝叶斯分类13.1.2 利用搜索记录1 3 . 2 U s e r -b a s e d C F02 1 3 . 3 I t e m -b a s e d C F03 1 3 . 4 优 化 问题04 13.5 小结05 14 文本挖掘文本挖掘1814 文本挖掘 14.1 文本挖掘的领域14.2.1 Rocchio算法14.2.2 朴素贝叶斯算法14.2.3 K
8、-近邻算法14.2.4 支持向量机SVM算法14.2 文本分类 14.3 小结15 人工神经网络人工神经网络1915 人工神经网络0115.1 人的神经网络0215.2 FANN库简介0315.3 常见的神经网络0415.4 BP神经网络0515.5 玻尔兹曼机0615.6 卷积神经网络15 人工神经网络15.7 深度学习15.8 小结15 人工神经网络15.1 人的神经网络15.1.2 结构模拟13215.1.1 神经网络结构15.1.3 训练与工作15 人工神经网络15.4 BP神经网络15.4.1 结构和原理115.4.2 训练过程215.4.3 过程解释315.4.4 示例415 人工
9、神经网络15.5 玻尔兹曼机15.5.1 退火模型115.5.2 玻尔兹曼机215 人工神经网络15.6 卷积神经网络15.6.1 卷积15.6.2 图像识别16 大数据框架简介大数据框架简介2016 大数据框架简介0116.1 著名的大数据框架0216.2 Hadoop框架0316.3 Spark框架0416.4 分布式列存储框架0516.5 PrestoDB神奇的CLI0616.6 小结16.2 Hadoop框架16 大数据框架简介16.2.3 经典的WordCount16.2.2 安装Hadoop16.2.1 MapReduce原理16 大数据框架简介16.3 Spark框架A16.3.
10、1 安装Spark16.3.2 使用Scala计算WordCountB16 大数据框架简介16.5 PrestoDB神奇的CLI16.5.1 Presto为什么那么快0116.5.2 安装Presto0217 系统架构和调优系统架构和调优2117 系统架构和调优17.1 速度资源的配置17.2 稳定资源的可用17.3 小结17.1 速度资源的配置17 系统架构和调优17.1.2 思路二:容器层面的优化17.1.4 思路四:环节层面的优化17.1.1 思路一:逻辑层面的优化17.1.3 思路三:存储结构层面的优化17.1.5 资源不足17 系统架构和调优17.2 稳定资源的可用17.2.1 借助
11、云服务117.2.3 排队317.2.2 锁分散217.2.4 谨防“雪崩”418 数据解读与数据的价值数据解读与数据的价值2218 数据解读与数据的价值18.2 AB测试18.4 多维度大数据的灵魂18.6 小结18.1 运营指标18.3 数据可视化18.5 数据变现的场景18 数据解读与数据的价值18.1 运营指标AB18.1.2 注意事项18.1.1 互联网类型公司常用指标18 数据解读与数据的价值18.2 AB测试0118.2.1 网页测试0218.2.2 方案测试0318.2.3 灰度发布0418.2.4 注意事项18 数据解读与数据的价值18.3 数据可视化18.3.1 图表118
12、.3.2 表格218 数据解读与数据的价值18.4 多维度大数据的灵魂18.4.1 多大算大18.4.2 大数据网络18.4.3 去中心化才能活跃18.4.4 数据会过剩吗18 数据解读与数据的价值18.5 数据变现的场景18.5.1 数据价值的衡量的讨论18.5.2 场景1:征信数据18.5.3 场景2:宏观数据18.5.4 场景3:画像数据附 录附 录 A V M w a r e W o r k s t a t i o n 的 安 装的 安 装23附录A VMware Workstation的安装A.1 VMware简介A.2 安装前的准备工作附录附录B CentOS虚拟机的安装方法虚拟机的安装方法24附录B CentOS虚拟机的安装方法B.1 下载光盘镜像B.2 创建VMware虚拟机B.3 安装CentOS 7操作系统附录附录C Python语言简介语言简介25附录C Python语言简介附录附录D Scikit-learn库简库简介介26附录D Scikit-learn库简介附录附录E FANN for Python安装安装27logo附录E FANN for Python安装附录附录F 群众眼中的大数据群众眼中的大数据28附录F 群众眼中的大数据写作花絮写作花絮29写作花絮感谢聆听感谢聆听