1、第1节 详解大数据 1.1 1.1 大数据的背景与意义大数据的背景与意义1.1.1 1.1.1 理解理解“大数据大数据”的三个维度的三个维度 数据数据早期计算机可以处理的数据称为“结构化”数据,也称作行数据,使用二维表结构来表达数据的逻辑,并进行数据存储。结构化数据严格地遵循数据格式与长度规范,主要通过电子表格或关系型数据库进行存储和管理。(例:电话簿文件)随着计算机应用系统的发展,出现了半结构化数据。和普通的纯文本相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,对数据结构的要求略宽松。(例:系统日志文件)随着互联网的发展,在以上两种类型的数据之外,又出现了无结
2、构化数据。(例:网页、电子邮件、流媒体数据)1.1.1 1.1.1 理解理解“大数据大数据”的三个维度的三个维度 人(用户)人(用户)早期计算机系统和数据的使用者主要来自科学计算的领域,计算任务和用户人群结构都比较单一,计算所需数据多需要专用设备采集和生成,数据量与当前的大数据相比属于“小”数据。随着个人电脑和互联网的普及,用户在网络上的行为变得更加个人化,各种社交需求也映射到了网络空间,出现了各种各样的社交媒体。用户在社交媒体上的自我表达和互动交流产生了海量异构数据。设备设备随着硬件制造水平的不断提升,目前计算和存储设备的能力正在不断冲击硬件制造工艺所能达到的极限。在个人电脑之外,一些更小的
3、设备比如手机、车载传感器、物联网设备等,其制造工艺也在飞速发展,通过这些设备产生的数据量更是呈现几何级数的增长,相应的处理模式也不再是单机的数量扩展或者简单的计算机集群的叠加。1.1 1.1 大数据的背景与意义大数据的背景与意义1.1.2 1.1.2 大数据的典型应用大数据的典型应用 搜索引擎搜索引擎互联网上的数据量不断增长,用户难以依靠人工方法在网上查找到感兴趣的内容,于是搜索引擎顺势而生。搜索引擎使用网络爬虫技术,不断对互联网上网页的内容及其关键词进行索引和记录存储。当用户提交搜索关键词时,搜索引擎根据自身数据库的记录,返回与用户查询匹配的网页作为搜索结果呈现。电子商务电子商务 早期,正是
4、由于具备了足够多的用户购买行为数据,亚马逊才能够设计和实施基于用户兴趣的协同过滤算法,为用户推荐其可能感兴趣的商品。在我国,电子商务行业的发展突飞猛进,2018年“双11”全网最终销售额3143亿元,远超2017年的2539亿元,增长23.8%;用户体验也同步提升。智能推荐智能推荐推荐内容:文本内容推荐图片、视频等多媒体数据的个性化推荐推荐策略:对基础的协同过滤算法和关联规则挖掘等进行了升级和改进,吸收了人工智能和机器学习算法的最新进展,使用复杂的神经网络算法学习内容的特征,用于更精准的个性化推荐。1.1.2 1.1.2 大数据的典型应用大数据的典型应用 零售行业零售行业关联规则推荐算法就来自
5、连锁超市沃尔玛的经营和销售分析。对于连锁超市、日用消费品行业,大数据同样能帮助企业提高利润率。例如,瓶装水的销售公司可以通过已有的销售大数据了解不同地区消费者对水瓶规格的需求情况,并以此为依据进行不同规格瓶装水的销售调配,进而提高利润。政府公共服务及其他行业政府公共服务及其他行业 对于政府部门、医疗行业和制造业来说,各国政府、相关企业都在使用大数据帮助自己降低成本,提高利润。以政府投入为例,2012年美国政府率先启动 大数据研究与发展计划”,正式从国家战略高度推动大数据发展,宣布将投资2亿多美元,用以大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,进而大幅提高从海量复杂的数据中提炼
6、信息和获取知识的能力与水平。1.1 1.1 大数据的背景与意义大数据的背景与意义1.1.3 1.1.3 大数据应用系统大数据应用系统 互联网领域互联网领域:包括在线社交网络、电子商务、即时通信工具等等。物联网领域物联网领域:移动设备和传感器都可以作为一个物联网的终端来进行内容的采集。例如布置在城市里进行空气质量数据采集的采集器,或者进行空间计算和气象计算时的数据采集器。大量的低成本量采集器帮助数据需求方实现大数据的积累,支持后续计算。书籍、书籍、历史文献电子化和社会信息交互领域历史文献电子化和社会信息交互领域:例如,谷歌公司曾经扫描了几十万本纸质书,尝试对其进行数字化,方法是将所有扫描后的图片
7、版电子书裁成一个个单词片段,并在用于网站防止机器注册时显示的验证码中显示这些单词片段。第1节 详解大数据 1.2 1.2 大数据的定义与挑战大数据的定义与挑战 1.2.1 1.2.1 大数据研究的源起大数据研究的源起 学术界学术界2008年 自然 杂志发布了“大数据”专刊,通常以此作为“大数据”这个概念以及这一研究领域在学术界的起点。随后,在2011年,科学 杂志也推出了“处理数据”(Dealing with Data)专刊。产业界产业界大数据技术和业务的创新者和领军者包括亚马逊、IBM、甲骨文、谷歌等公司。这些公司出于自身业务发展和实践经验,提出了各自领域的大数据计算平台。例如亚马逊公司的云
8、服务平台 AWS(Amazon Web Services)能够提供计算能力、数据库存储、内容交付以及其他功能来帮助实现业务扩展和增长。1.2.1 1.2.1 大数据研究的源起大数据研究的源起 国外国外各国政府也积极跟进和布局大数据基础研究。美国政府曾经出资两亿美元支持大数据研究与发展计划。日本政府在2013年发布了 创建最尖端IT国家宣言,全面阐述了2013年至2020年间以发展开放公共数据和大数据为核心的国家战略。战略中包括了向民间开放公共数据、促进大数据的广泛应用等政策。我国我国 我国的“十二五”规划提出全面地推动信息化。“十二五”以来,我国大数据产业从无到有,全国各地发展大数据积极性较高
9、,行业应用得到快速推广。“国家大数据战略”被写进了备受关注的“十三五”规划。规划提出,目标到2020年,技术先进、应用繁荣、保障有力的大数据产业体系基本形成。大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑 1.2 1.2 大数据的定义与挑战大数据的定义与挑战1.2.2 1.2.2 大数据的概念和特点大数据的概念和特点尽管“大数据”这个概念以及相应的算法和技术已经广泛传播并应用,但是目前为止并没有一个被广泛接受的精确定义。以下尝试识别大数据的大数据的“4V4V”维度特征维度特征 ,可以从这些特征维度来界定大数据
10、这个概念:规模规模 (VolumeVolume)大数据的数据量级或规模超出了既有系统能够处理的水平。速度速度 (VelocityVelocity)大数据的产生速度非常快,每时每刻都有大量的数据在应用系统中生成和积累。价值价值 (ValueValue)大数据具有价值挖掘的潜力,但是大数据也存在价值密度低的问题,即,海量数据中有相当多的无效或不相关数据,它们对于实现价值挖掘的贡献度较低。多样性多样性 (VarietyVariety)大数据的类型多种多样,存在各种格式和形式的数据。1.2.2 1.2.2 大数据的概念和特点大数据的概念和特点 大数据的特征大数据的特征数据规模大数据生成速度快数据价值密
11、度不高数据类型多样通常认为,数据满足“4V”的特征就可以将其纳入大数据的范畴,或者说它是一个大数据能解决的问题。“大数据大数据”不等于不等于“海量数据海量数据”1.2 1.2 大数据的定义与挑战大数据的定义与挑战1.2.3 1.2.3 大数据的研究意义大数据的研究意义 辅助社会管理辅助社会管理 预测流感趋势。2009年美国爆发甲型 H1N1流感,谷歌公司的工程师利用大数据的分析手段,分析谷歌搜索引擎中每天数十亿条用户搜索查询日志,测试了4.5亿个数学模型,建立了较为准确的 流感预测模型,及时准确地获知了全球流感传播趋势。推动科技进步推动科技进步 海啸预警。快速准确地测定出地震参数,并判断出该地
12、震是否会激发海啸以及海啸规模。然后,模拟计算海啸到达海岸的时间及强度,将海啸预警信息及时传送给可能遭受袭击的沿海地区居民。支持商业决策支持商业决策 数据驱动的商业智能是指利用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。促进民生改善促进民生改善 智能交通系统、路网的导航应用软件、网约车服务 1.2 1.2 大数据的定义与挑战大数据的定义与挑战1.2.4 1.2.4 大数据面临的问题与挑战大数据面临的问题与挑战从数据规模的量变出发,演化出数据的生成速度、数据的价值和类型等3个维度的质变,形成了“大数据”。也就是说,大数据并不仅仅是数据量的积累,更是量变发生
13、到一定阶段之后引发的质变质变。一个显著现象是环境的变化:一个显著现象是环境的变化:以往应对数据量增长的方式无非是硬件系统扩容(例如增加内存和 CPU 等)以及软件系统升级(例如从处理 MB规模数据升级为处理 GB规模数据)。但这样增加资源的方式逐渐变得不适用了。面临的关键问题就是,面临的关键问题就是,可以使用的资源是受限的可以使用的资源是受限的 进入大数据时代之前,我们的计算能力充足,能够应付增长的数据;进入大数据时代之后,现有的计算能力的增长速度已经赶不上数据增长的速度了,大数据的问题变成了资源受限的计算问题,发生了质变。大数据时代,大数据时代,计算环境由资源充足转变为资源受限,计算环境由资
14、源充足转变为资源受限,计算的视角也由探索优化转变计算的视角也由探索优化转变为可行性判定,为可行性判定,因此,因此,计算方法也从严格计算转向了近似计算。计算方法也从严格计算转向了近似计算。第1节 详解大数据 1.3 1.3 大数据平台基础架构大数据平台基础架构 硬件平台硬件平台从应对数据规模的角度,仍然需要提高硬件处理能力,完成海量数据的采集、存储和分析处理。从存储规模上,需要建设PB级的数据机房,配合高速运算的多CPU、高速的输入输出设备,以及数百 GB的内存容量。软件平台软件平台大数据平台的软件部分主要是实现数据的采集、存储、计算和分析,软件平台框架包括存储框架和计算框架。存储框架存储框架底
15、层基于分布式的文件存储系统。这是由于巨量数据已经无法保存在一台或几台机器上,而是需要进行分布式的存储。对于计算框架计算框架来说,如果计算任务的实时性要求不高,则可以采用离线计算的方式,把问题切分成每个机器都能计算的子任务,分配到多台机器执行计算,最后汇总计算结果。针对实时计算任务,则需要将其搭建在实时的计算平台上面完成。第1节 详解大数据 1.4 1.4 云计算与云计算与大数据大数据 云计算云计算云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式。动态可伸缩是指根据用户的需求提供规模可变的资源。云计算云计算VSVS大数据大数据云计算的核心问题是如何不断改进支持云计算的技术,
16、以及从技术的角度如何把计算的成本降下来。大数据则更关注业务逻辑的实现,以及从数据中能发掘什么价值。动态可伸缩:动态可伸缩:例如,用户的某个计算任务需要100台主机完成,则可以租用云计算平台的100台虚拟主机;如果仅需要10台主机,那么就租用10台虚拟主机。虚拟化资源:虚拟化资源:对于用户来说,这些虚拟主机在物理上 的位置等均不必关心,因此用户面对的 资源称为虚拟化资源。第2节 大数据与算法推荐系统 2.1 2.1 推荐系统的数据依赖推荐系统的数据依赖2.1.1 2.1.1 大数据在个性化推荐系统中的应用大数据在个性化推荐系统中的应用(A A)研究用户)研究用户 用户行为分析用户行为分析系统获取
17、用户使用行为的有关数据并进行统计、分析,从中发现用户使用习惯的规律,并运用这些规律改进智能推荐算法。用户行为包含时间、地点、人物、动作、内容等基本要素。用户行为数据越多、越准确,用户画像数据越准确,个性化推荐效果越好。用户消费心理分析用户消费心理分析是从心理层面分析和掌握用户的内在需求,从而改进推荐效果的一种方法。一些电商平台或是付费类的内容推荐平台,需要分析用户在何种心理情境下更容易发生消费行为,识别出影响用户消费的心理环境因素,并进行个性化的产品和内容推荐。社交网络分析社交网络分析 关注在线社交网络中的个体、个体间的关系和相互作用,以及在此之上的社群发现、情感分析、话题挖掘等。识别目标人群
18、并进行有针对性的精准推荐,寻找意见领袖、借助意见领袖完成内容的推广或产品的销售。2.1 2.1 推荐系统的数据依赖推荐系统的数据依赖2.1.1 2.1.1 大数据在个性化推荐系统中的应用大数据在个性化推荐系统中的应用(B B)研究产品)研究产品 特征挖掘特征挖掘 以文本内容为例,可以使用数据挖掘的手段,提取文本类内容的关键词、主题、摘要、分类、话题、语义等,作为与用户画像中的用户标签匹配的依据。对比分析对比分析 主要关注产品的异同,通过大数据多维度的描述,寻找产品之间的细微差别,实现细分人群的精准推荐。预测分析预测分析 可以从产品的基本数据指标(如新增用户数、活跃用户数、用户留存率、产品的使用
19、时长、用户的地域分布等)对产品的未来使用情况进行预测。2.1.1 2.1.1 大数据在个性化推荐系统中的应用大数据在个性化推荐系统中的应用 预测分析可以使用的计算模型包括:预测分析可以使用的计算模型包括:直方图直方图 (频率分布)(频率分布)分析分析将变量的数值范围等分为若干区间,统计该变量在各个区间上出现的频率,并用矩形条的长度表示频率的高低。时间序列图时间序列图 (趋势)(趋势)分析分析描述变量在一段时间内变化波动的趋势和规律,如某个频道内容的阅读量大体在什么范围内波动、是否具有波动较大的时期或时点等。散点图散点图 (相关性及数据分布)(相关性及数据分布)分析分析在回归分析中,数据点在直角
20、坐标系平面上的分布图。散点图表示因变量随自变量变化的趋势,可以选择合适的函数对数据点进行拟合。此外还有算术平均分析、移动平均分析等计算模型。2.1 2.1 推荐系统的数据依赖推荐系统的数据依赖2.1.2 2.1.2 推荐系统的数据依赖推荐系统的数据依赖海量数据海量数据 正是由于具备了大量的用户数据和产品数据,推荐系统才能实现智能的个性化推荐。因此,大数据是推荐系统业务的基本“原料”。推荐模型推荐模型 推荐模型(例如协同过滤、关联规则推荐)需要使用各种“特征”进行内容与用户的匹配计算。因此,内容分析和用户标签挖掘是搭建推荐系统的基石。内容筛选策略内容筛选策略 针对每个用户,系统如果直接使用推荐模
21、型从海量内容中进行内容选择和推荐,将面临计算开销过大、成本过高的问题。因此需要考虑对算法进行优化,使用多种内容筛选机制进行候选内容的过滤。算法推荐系统在海量数据的基础上,算法推荐系统在海量数据的基础上,使用推荐模型和内容筛选策略相结合的手段,使用推荐模型和内容筛选策略相结合的手段,实现推荐性能的提升。实现推荐性能的提升。第2节 大数据与算法推荐系统 2.2 2.2 用户侧大数据:用户标签的计算用户侧大数据:用户标签的计算2.2.1 2.2.1 用户标签数据的分类和策略用户标签数据的分类和策略推荐系统在用户一侧主要关注用户标签大数据。用户标签数据分类用户标签数据分类兴趣类标签:例如兴趣的类别、主
22、题、关键词,内容的来源,基于兴趣用户聚类的类别标签等。身份类标签:如性别、年龄、常住地点等。行为标签:主要是用户使用推荐系统的行为特点,例如哪个时间段使用更频繁、关注哪种类型的内容。2.2.1 2.2.1 用户标签数据的分类和策略用户标签数据的分类和策略 用户标签生成策略用户标签生成策略过滤噪声数据过滤噪声数据:对于用户停留时间短的点击和阅读,不进行标签提取;用户可能由于误操作或是标题党内容误导而进行了点击,因此用户的真实兴趣并不高,将其认为是噪声数据。降低热门标签权重降低热门标签权重:对于用户在热门文章上的点击、阅读等动作做降权处理,也就是这些热门文章对应的标签热度在系统中并不会持续线性增长
23、。例如,对于热点新闻,用户可能出于信息获取的角度去阅读,并不能表示此类文章是他的真实兴趣。时间衰减时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,用户新动作贡献的特征权重会更大。2.2 2.2 用户侧大数据:用户标签的计算用户侧大数据:用户标签的计算2.2.2 2.2.2 用户标签数据的计算用户标签数据的计算算法推荐系统将用户的每一个操作收集记录在用户行为原始日志中,例如用户的每一次点击、阅读、评论、分享等等。系统使用批量计算或流式计算的方式从原始日志中提取用户行为体现出的用户标签。流式计算的优势在于可以大大降低计算资源开销,综合考评的数据能够节省80%的CPU时间开销;还可以接近实时
24、地更新用户兴趣模型。对于用户来说,系统能够根据他们最新的兴趣进行内容推送,这样的用户体验是更加流畅和更加个性化的。一般来说,系统可以混合使用流式计算和批量计算。可以使用流式计算更新大部分的用户画像;而年龄、常住地等相对静态的数据,对时效性不太敏感,则可以放到批量平台上进行计算。图2.1 用户标签大 数 据 采 集 的计算流程 第2节 大数据与算法推荐系统 2.3 2.3 内容侧大数据:组织和分类内容侧大数据:组织和分类内容侧的数据量非常庞大,因此算法推荐系统关心的核心问题是如何对内容进行组织并对其进行有效的分类,服务于内容的高效取回。文本内容通常都是采用典型的层次化分类方法进行组织的。通过一层
25、一层的分类器,系统将内容从抽象到具象进行依据语义(含义)的分类和组织。例如,系统要给某个用户推荐“英国近代史”类的内容,就先去查找历史类的内容,进而查找近代史、西方近代史、英国近代史的内容,从而筛选出与“英国近代史”这个标签相关的内容。这里“历史”“近代史”“西方近代史”“英国近代史”就是逐层递进、逐渐具象化的分类器。层次化的内容分类方法符合人的思维方式,从系统实现来说也更有逻辑性。第3节 深度学习和神经网络 3.1 3.1 深度学习的概念和应用深度学习的概念和应用3.1.1 3.1.1 大信息处理系统的两种模式大信息处理系统的两种模式 “拉拉”模式模式用户主动发起寻找数据的过程。最典型的应用
26、就是搜索引擎,由用户提交查询,搜索引擎帮用户实现在网络上进行信息搜集和计算的过程。“推推”模式模式它对用户来说更加便捷和友好,用户并不需要提交各种查询关键词,由系统根据其对用户兴趣和需求的认知来进行智能化的推荐,实现信息推送。此时,系统需要更高的智能处理和学习能力,推荐系统越来越成为深度学习的一个重要应用领域。3.1 3.1 深度学习的概念和应用深度学习的概念和应用3.1.2 3.1.2 深度学习深度学习深度学习的概念源于人工神经网络的研究。深度学习算法在很多领域(如图像处理、语音识别、文字理解等)都取得了长足发展。深度学习的一个本质特征是,它试图对数据特征进行一些深层次的抽象挖掘。通过组合低
27、层特征,形成更加抽象的高层,表示属性类别或特征,以发现数据的有效表示。深度学习具有优秀的自动提取特征的能力,能够学习多层次的抽象特征表示,并对异质或跨域的内容信息进行学习,并可在一定程度上处理推荐系统冷启动问题。深度学习更关注的是直接分析数据,进入数据底层,利用模型考察能否通过大规模的学习把数据特征“学习”出来,以及特征之间到底有什么映射关系,随后就可以以此建立一些数据模型。深度学习的优势在于其领域无关性,其在图像、语言、文本领域都有应用。3 3.1.2 .1.2 深度学习深度学习 目标要求目标要求假设某用户在一个视频网站上观看了几部电影,则该网站就可以给用户进行后续的电影推荐。实现方法实现方
28、法网站可以使用“无监督的机器学习算法”,基于电影海报向用户推荐电影。具体过程具体过程电影海报的特点非常鲜明,不同类别和主题的电影海报之间差异性很大,而同类电影的海报在风格上则存在着相似性。假设用户在网站上观看了一部名为 盗火线 的电影,则使用机器学习的电影推荐网站可以做到只分析这个电影的海报,就为用户推荐出相关的一系列电影。也就是说,根据用户已有的历史行为而不是用户自己报告的兴趣,只是通过无监督学习直接分析电影海报,就可以向用户推荐他感兴趣的其他电影。案例:深度学习在推荐系统中的应用案例:深度学习在推荐系统中的应用“电影推荐电影推荐”第3节 深度学习和神经网络 3.2 3.2 神经网络神经网络
29、3.2.1 3.2.1 深度学习与神经网络深度学习与神经网络深度学习与神经网络结合,形成了“深度神经网络”算法。抽象地说,它是把数据底层的一些特征组合起来,送到更加抽象的高层完成学习。特征是用于表示属性类别的,识别出类别特征就可以实现分类。例如某张图中明亮的颜色较多,这就是一种简化后的特征。实际上在神经网络的模型中会有多个“神经元”(也就是分类器)支持算法发现该图片亮色较多这个特征。深度学习的优点深度学习的优点能够自动提取数据的特征,而不需要显式的告知。例如 算法推荐系统中一个用户的年龄、性别、居住地等等,深度学习算法可以通过多样多层的抽象学习自动得出。可以对跨领域的信息进行学习。对于系统冷启
30、动的问题(系统如何向不熟悉的新用户推荐内容),深度学习也能较好地解决。3.2 3.2 神经网络神经网络3.2.2 3.2.2 深度神经网络的研究和发展历史深度神经网络的研究和发展历史早在1943年就有学者开始研究人工神经网络,最早人工神经网络只有一个神经元。20世纪50年代末的1958年,神经网络迎来了第一次兴起,这时它还是单层的神经网络,通过一系列神经元在同一层网络中进行计算。20世纪60年代末到20世纪70年代初经历了人工智能的低谷期,行业内将1969年称作人工智能的冬天。在20世纪70年代到80年代初,整个学界对人工智能的研究仍然处于沉寂期。1986年神经网络迎来了它的第二次研究高峰,这
31、时候网络已经演变到了两层,前一层许多神经元的计算(分类)结果传送给后一层继续计算。2000年前后,神经网络的研究又进入了一个低谷期,学术界投入的研究力量缩减。在最近十年,由于大数据的出现,软硬件处理能力提升,人工智能和多层的深度神经网络又迎来了一个蓬勃发展的时代。此时的神经网络已经演变为多层神经网络。3.2 3.2 神经网络神经网络3.2.3 3.2.3 解读神经网络:分类器解读神经网络:分类器本质上可以将神经网络理解为分类器,通过多层网络的神经元,对输入数据进行一次一次的分类,最终得出数据的类别、属性、主题等。其典型应用包括垃圾邮件判断、疾病判断、图片识别等。在算法层面,神经网络输入的是一些
32、特征向量。垃圾邮件判别的对应输入是邮件中提取的词向量,疾病判断的对应输入是生化指标构成的向量,而图片识别的输入则是图片像素组成的向量。神经网络的输出简单来说就是分类结果。比如一封电子邮件是否为垃圾邮件,一个病人是否感染某种疾病,一张图片是否为包含猫或狗的图片,这些都是分类及其结果。3.2 3.2 神经网络神经网络3.2.4 3.2.4 解读神经网络:神经元解读神经网络:神经元神经网络里最基本的元素叫作神经元。一个神经元的作用就是分一次类,根据数据是否满足某个条件,将其分成“是”或“否”两类。图3.1 神经元的分类功能示意 3.2.4 3.2.4 解读神经网络:神经元解读神经网络:神经元 对于二
33、维数据来说,使用一条直线就可以把平面一分为二;对于三维空间来说,则需要使用不同的平面对三维空间进行分隔,实现分类。实际上,数据特征向量的维度远不止三维。因此要想对n维数据进行分类,则需要构造n-1维的超平面(分类器)对n维空间进行分隔。神经元数量过多时,为了进行功能区分,要对神经网络进行分层,底层神经元的组合计算结果输送给高层网络的神经元继续计算。对数据的每一次划分都使用了一个神经元,几百万、几千万神经元组合起来就组成了一个多层的深度神经网络,即可完成复杂的学习和计算任务。3.2 3.2 神经网络神经网络3.2.5 3.2.5 神经网络的训练:神经网络的训练:反向传播反向传播 含义:含义:一个
34、好的深度神经网络能够实现对数据的正确分类。例如对图片进行分类的任务,假设输入一张猫的图片,模型将其标记为狗的图片,那么这个神经网络模型的质量就不高。此时可以采用反向传播的方法对神经网络的模型进行修正。过程:过程:如果某一次分类计算中,神经网络的输出值并不等于正确值,则算法从神经网络的最后一层回溯,逐层调整参数,直至相关神经元的参数都调整到能够正确分类本次输入数据。意义:意义:由于神经网络模型中参数的数量非常大,因此神经网络饱受诟病的一个特点就是调参数的过程不透明,可解释性不强,并且参数与数据集的相关性较大,不同的数据集对应的模型参数都各不相同。尽管如此,经过对数据的适配,深度神经网络仍然能够高
35、质量地完成学习和分类任务,因此目前深度神经网络在学界和业界依然受到广泛关注和应用。第3节 深度学习和神经网络 3.3 3.3 思考与讨论思考与讨论3.3.1 3.3.1 深度神经网络的难点和挑战深度神经网络的难点和挑战 难点难点最大问题就是模型的参数特别多,随着网络层数的增加,参数值的训练和调优变得越来越困难。要想把模型训练好就需要大量的训练数据,而数据是否可以获得则受到具体问题、具体条件的制约。对参数的调整也并不一定存在理论上可以验证的最合适、合理的方法。对于具体应用而言,不存在标准的神经网络结构,即没有确定的最佳深度神经网络。挑战挑战如果用户的行为比较稀疏(用户行为数据少),则数据的质量不
36、高,可用性不强。如果系统中用户画像数据质量不高,那么用户的属性数据就不明确,个性化推荐的效果也会受到影响。3.3 3.3 思考与讨论思考与讨论3.3.2 3.3.2 使用深度神经网络进行推荐结果的可解释性使用深度神经网络进行推荐结果的可解释性针对多伦多大学团队的9层神经网络模型,我们尝试对模型每一层的功能和原理进行解释。但是就深度学习算法本身来说,很多时候算法模型并不一定能够提供很好的可解释性。尽管推荐系统可以给用户推荐其感兴趣的内容,但是对于“为什么推荐这个内容”这样的问题,系统未必能够找到确定的解释和答案。目前,针对无监督机器学习算法的可解释性问题被提上日程,在学术界也有学者已经开始开展相
37、关研究,尝试从可解释性的概念界定和标准设定、算法可解释性框架,以及具体算法的可解释性等方面进行理论体系的搭建。本章小结介绍了大数据的背景和意义、介绍了大数据的背景和意义、定义和挑战、定义和挑战、平台基础架构平台基础架构以及大数据与云计算。以及大数据与云计算。010102020303解读神经网络系统、深度学习与神经网络之间的关系,对于解读神经网络系统、深度学习与神经网络之间的关系,对于使用深度神经网络算法进行推荐这一过程进行思考和研判。使用深度神经网络算法进行推荐这一过程进行思考和研判。重点介绍推荐系统的数据依赖、重点介绍推荐系统的数据依赖、用户侧大数据、用户侧大数据、内容侧内容侧大数据以及相关技术。大数据以及相关技术。思考算法的可解释性是什么?01强调算法的可解释性的意义是什么?021.大数据的“4V”是什么?请尝试将其对应至算法推荐系统并进行阐释。2.大数据在算法推荐系统中有什么作用?3.用户标签的批量计算和流式计算框架有何异同?二者分别适用于什么计算场景?4.深度神经网络的基本原理是什么?它在算法推荐系统中有何应用?训练