第五章智能推荐算法课件.pptx_163文库

资源描述

1、算法新闻智能推荐算法本章要点关键词第5 5章本章围绕智能推荐算法的起源、发展、应用本章围绕智能推荐算法的起源、发展、应用和评估展开。首先介绍智能推荐系统的发端，和评估展开。首先介绍智能推荐系统的发端，即智能推荐系统得以发源和发展的多种前置即智能推荐系统得以发源和发展的多种前置技术条件和准备，包括大数据技术、机器学技术条件和准备，包括大数据技术、机器学习算法、移动互联网的发展以及用户特点的习算法、移动互联网的发展以及用户特点的变化。接下来，以关联规则推荐算法为例，变化。接下来，以关联规则推荐算法为例，具体介绍智能推荐算法的原理和过程、可能具体介绍智能推荐算法的原理和过程、可能的改进及其演进方向。

2、最后介绍如何对推荐的改进及其演进方向。最后介绍如何对推荐算法进行评估，帮助算法推荐系统筛选最合算法进行评估，帮助算法推荐系统筛选最合适的算法。适的算法。智能推荐系统、大数据技术、机器学习算法、智能推荐系统、大数据技术、机器学习算法、关联规则推荐算法关联规则推荐算法第1节智能推荐系统的发端目前，接入互联网的设备特别是通过移动互联网接入的移动终端设备之上，各种各样的应用软件层出不穷。其中一个不容忽视的趋势就是智能推荐系统正在热火朝天地发展和壮大，越来越多的应用软件系统引入智能推荐算法，用以实现更好的个性化内容呈现和精准送达。存在怎样的技术准备和前置条件来支持这些智能推荐算法以及智能推荐系统呢？有

3、四个主要条存在怎样的技术准备和前置条件来支持这些智能推荐算法以及智能推荐系统呢？有四个主要条件：件：（1）大数据技术的发展以及开源大数据处理平台的普及。（2）机器学习算法的突破。（3）移动互联网的繁荣发展。（4）用户习惯的改变。在当前的时间节点上，大数据不论是对于自然科学及人文社会科学，还是对于工业界，均具有重要意义。从数据的产生来看，每一个个体用户，都是大数据的贡献者，都为海量数据的生成提供了源数据。一、开源大数据处理平台的普及一、开源大数据处理平台的普及“大数据大数据”从数据量级的角度来说到底有多从数据量级的角度来说到底有多“大大”？在办公领域，以电子邮件系统为例，全球范围内每秒会发出数百

4、万封电子邮件。在视频分享和推荐领域，YouTube网站的流量数据总量超过百亿，每天新增总播放时长达数万小时的视频，并且其单日浏览量也达数亿甚至数十亿。在社交媒体领域，截至2017年底，新浪微博月阅读量超百亿的垂直领域达25个，微博内容存量已超过千亿，微博搜索月活跃用户近1亿（参见微博数据中心2017微博用户发展报告）。在电子商务领域，2018年“双11”电商购物节期间，来自商务部的数据显示，全国网络零售交易额超过3000亿元。在网络应用领域，谷歌搜索引擎每天需要处理24PB级别的数据。在算法智能推荐系统领域，截至2017年12月，今日头条系统一共有3亿用户，日活跃用户量超过3000万，系统的日

5、均点击量大概是5亿次，每个用户的平均使用时长为47分钟。支撑大数据的硬件平台支撑大数据的硬件平台针对海量的数据，需要相应的硬件来完成这些数据的采集、存储和计算。从数据体量的角度，目前的大数据量级已经达到了PB级别。补充：补充：PB是英文Pega Byte的缩写，其中B是英文byte的缩写，即“字节”。通常，个人电脑硬盘的存储容量是GB（Giga Byte，吉字节，又称“千兆”）级别的，如256GB、512GB等。此处，1GB1024MB，1MB（Mega Byte，兆字节，简称“兆”）1024kb，1kb（Kilobyte，千字节）1024B。由于大数据的量级呈现几何方式的增长，传统的硬件架构

6、已经很难满足需求。巨大的PB级别数据量级对于数据的采集和存储都提出了新的要求，通俗地讲，就是要求大数据系统既能存得下数据又能快速读写，并且在足够短的时间里完成计算。通常，存储系统的升级并不仅仅指存储容量升级，系统对其他资源也有额外的需求，如I/O带宽和计算能力。也就是说，为了支持海量数据的存储和计算，需要高性能的计算和存储设备完成大数据上的分析和计算任务，因此，大数据计算系统的硬件会体现出大大存储容量、多主机、多存储容量、多主机、多CPUCPU、高速运算、高速、高速运算、高速I/OI/O、数百、数百GBGB内存内存等特点。为了应对不断增长的数据，目前常见的大数据系统扩展方式有纵向扩展和横向扩展

7、两种。纵向扩展：纵向扩展：主要是利用已有的存储系统架构，通过不断增加存储容量来满足数据增长的需求。横向扩展：横向扩展：进行系统升级，通过增加独立的设备来提高系统的运算能力。大数据的软件计算框架大数据的软件计算框架从软件方面来说，大数据系统还需要实现大数据的计算框架。从软件功能的角度，存在存储”和“计算”这两种类型的大数据计算框架。1.1.大数据存储框架（大数据存储框架（HadoopHadoopHDFSHDFS）目前，开源的大数据存储平台主要是基于Hadoop平台实现的。Hadoop是一种分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的计算能力进行高速运

8、算和存储。基于Hadoop技术的大数据存储平台实现了海量数据的分布式存储，在存储方面实现了一个分布式的文件存储系统HDFS，即Hadoop分布式文件系统（Hadoop distribute file system）。针对海量数据的分布存储，可以降低存储设备的单点压力，提高存储的容错能力。因此，大数据系统的内部实现可以由Hadoop平台加上分布式文件系统来支撑存储功能。2.2.大数据计算框架大数据计算框架（1 1）离线计算（）离线计算（MapReduceMapReduce）早期的大数据计算框架技术主要采取离线计算的方式。在运算过程中，首先通过对计算任务的分解，把数据集切分为多个分片；随后，每一次

9、运算从硬盘加载一部分数据分片并分配到集群中不同的机器上进行计算，其中，需要把一些必要的中间结果保存到硬盘上（HDFS）；然后再由后续的运算模块把中间结果读到内存，再进行合并计算，求出结果后，将其写到硬盘，完成一次离线的分布式计算。离线计算适用于单次计算任务对完成时间的要求不高并且单次计算任务通常不需要反复执行的计算场景，如机器学习模型的训练。大数据的软件计算框架大数据的软件计算框架（2 2）在线计算（）在线计算（SparkSpark）随着对计算性能要求的提高，某些在大数据集合上的计算也需要达到实时或者准实时的标准。为了实现在线级别的大数据计算，可以在Hadoop和HDFS平台的基础上搭建Spa

10、rk计算平台。Spark是快速通用的大规模数据计算引擎。与离线计算不同的是，在线计算的中间输出结果可以保存在内存中，从而不再需要读写HDFS，有效地减少I/O，提高系统效率，因此Spark能更好地适用于需要重复进行的计算场景。从底层存储来看，以上离线计算和在线计算的大数据框架在存储层面，都是在Hadoop分布式文件系统上存储的。二者的区别在于计算过程是否需要反复读取硬盘数据，从而区分出在线计算和离线计算两种情况。提要：提要：为了处理和计算来自各行各业的大数据，大数据的硬件、软件技术手段应运而生并不断向前演进，服务于大数据的存储、分析和价值发现。二、机器学习算法的突破二、机器学习算法的突破机器学

11、习算法的基本原理：机器学习算法的基本原理：机器学习是一门研究算法的学科，简单地讲就是研究如何让计算机根据以往的经验去适应新的环境。这里“以往的经验”指的是历史数据；“适应”指的是通过对历史数据的研究分析，建立一种映射关系；“新的环境”是指新产生的需要计算的数据。当新数据输入机器学习建立的函数中时，会产生符合历史数据规律的新输出。机器学习本质上是研究自学习算法的科学，这些算法用于帮助机器进行自我学习来解决问题。案例：案例：假设我们想训练一个机器学习模型识别出猫。于是，我们可以提供给机器学习算法一定数量的已经标注为“猫”的图片，需要尽可能包括正面、侧面、背面等多种角度。对于机器学习算法来说，这些图

12、片就是已有数据中的输入数据已有数据中的输入数据，我们使用这样的一些数据来训练动物识别器，而其对应的已知输出数据则是对这些图片所含动物类别的标记，对应于此类输入图片，机器学习算法已知其标记均为“猫”。机器学习算法会从多张猫的图片中学习其共性特征学习其共性特征，如两只尖耳朵，两只眼睛，有毛，有尾巴等等（“尖耳朵”“眼睛”“毛”“尾巴”是为了文字表述方便而阐述的特征，实际上在机器学习算法中它们对应的是若干个维度的数值属性）。机器学习算法把“猫”的这些特征识别出来，认为满足这些特征的图片都是含有猫的图片，就完成了模拟人类进行归纳总结的过程。模型训练好之后，算法再遇到满足此类特征的图片，即可识别其为含有

13、猫的图片，就完成了演绎推理的过程。对于机器学习算法来说，为了提高模型的准确度，需要提供足够的训练数据。为了提高模型的准确度，需要提供足够的训练数据。所谓“足够”，一方面是数据量大，另一方面是能覆盖尽量多的可能性。例如图中所示三张图中的猫都是尖耳朵并且有毛的猫，如果全部训练数据都是类似品种的猫的图片，那么训练完成后，如果识别算法遇到了折耳猫或是无毛猫的图片，识别的准确度就会受到影响，不一定能将其正确标注。常见的机器学习算法：常见的机器学习算法：下面以一个文本分类的任务为例，简要介绍这些机器学习算法。文本分类任务的已有数据是一个新闻语料文档集，包括多篇多种类别的新闻，如体育新闻、财经新闻等。（1）

14、无监督的机器学习算法（）无监督的机器学习算法（“聚类聚类”算法）算法）针对新闻文本分类任务，算法事先并不知道每一篇新闻文档的类别是什么，以及共有多少种类别，此时把语料库的文档全部送到机器学习算法中，让它对输入数据进行自学习，区分并生成若干种可能的新闻文档类别，这种情况下的机器学习算法就是无监督的机器学习。（2）有监督的机器学习算法（）有监督的机器学习算法（“分类分类”算法）算法）与无监督的机器学习算法相对。所谓有监督的学习是指给算法提供一定数量的训练数据。此时需要事先标记好一定数量的新闻文本，即每一篇新闻是什么类型的。在这种情况下，文档库中共有多少种新闻类别以及每种新闻的分类是什么都是预先指定

15、好的。因此，这类机器学习算法也称为“分类”算法，对应的模型称为“分类器”。利用已经标记好的新闻文档及其所属分类数据，就可以对分类器进行训练。在训练过程中分类器会学习每个类别新闻的特征。当分类器把每一种新闻类别的特征都学习好之后，即完成了对分类器的训练。随后，对于新的输入数据，即类别未知的新闻文档，就不需要进行人工的新闻分类了，分类器就可以自动地给新的文档找到相应的类别并对文档进行类别标记。（3）基于对抗生成网络的算法）基于对抗生成网络的算法其原理是，对于已经训练到一定程度的模型，实现者会尝试输入一些反例。例如故意标记一篇社会新闻文档D为国际新闻，如果模型已经训练到足够准确，那么模型就可以直接识

16、别出文档D并不是标记的那种类型（国际新闻）。这时候算法模型可以更加专注于了解文档D为什么不是国际新闻类的新闻，把相关的特点抽出来，放到对抗生成网络里，就能更好地帮助算法模型认识到文档的哪些特征能更好地表征所属类别的特点。所以在模型训练过程中，把一些反例输入模型，让算法在反例输入的情况下，对抗反例数据，提高自己的学习能力。（4）基于卷积神经网络的算法）基于卷积神经网络的算法基于卷积神经网络的算法可以实现对图像数据的有效分析和处理。对于一幅图像来说，可以将其分成mn个像素或者mn个小格子。最简单的方法就是认为这幅图像一共有mn个特征（每个像素或小格子是一个特征）。如果图像比较大，图像就被建模为高维

17、特征对象，相应的处理算法需要面对高维数据，运算量大，对算力的要求高，导致效率受到限制。因此，考虑如何对高维数据进行抽象，使用一个比较小的矩阵，来表述这幅图的特征。可以采用的方法是，把位置临近的若干个格子聚合起来，例如将每kk个格子提炼为一个特征（k小于m和n）。通过这样的处理，就可以把数据特征的维度降低，从而在较低维度数据上进行机器学习模型的训练。提要：提要：目前已知的多种机器学习算法（如有监督的学习、无监督的学习、对抗生成网络算法以及卷积神经网络算法等）在算法推荐系统均有一定程度的应用。在真实系统中，往往是综合考虑具体的情况和应用场景，综合使用几种算法，以达到更好的效果。三、移动互联网的繁荣

18、三、移动互联网的繁荣2018年8月，中国互联网络信息中心在北京发布第42次中国互联网络发展状况统计报告。截至2018年6月30日，中国网民规模达8.02亿，其中手机网民规模已达7.88亿，网民通过手机接入互联网的比例高达98.3。移动互联网及其上承载的应用已经广泛地深入人们衣食住行的方方面面。互联网以及移动互联网业务的发展脉络：互联网以及移动互联网业务的发展脉络：1980年到1990年的个人电脑时代，互联网上开始出现一些简单的搜索引擎，回应用户的网络导航需求，如雅虎等搜索引擎可以提供静态的导航信息。Web1.0Web1.0时代：时代：1990年到2000年，针对互联网上的应用需求，谷歌公司发布

19、了谷歌搜索引擎，通过分析用户搜索的信息更好地满足用户需求。Web2.0Web2.0时代：时代：2000年到2010年，基于Web2.0技术出现了语义网络以及其上的语义搜索技术。脸书等在线社交媒体逐渐兴起，用户可以创造内容并上传，给互联网用户创造了自我表达和在线连接等新需求。在中国，也出现了微博、微信等新的社交媒体平台。因此，有人将2010年至2020年阶段称为Web3.0Web3.0时代时代。在这一阶段，移动互联网的业务品类和流量均呈现大爆发。大数据及大数据技术平台提供了对移动互联网各种新业务的有效支持，多种个性化的算法推荐系统也应运而生并广泛流传。四、用户习惯的改变四、用户习惯的改变从用户的

20、角度看，智能推荐系统迅速发展的一个重要原因在于用户习惯的改变。用户习惯变化的原因：用户习惯变化的原因：内容分发的去中心化。内容分发的去中心化。在以往中心化内容分发的模式下，用户可见可读的内容是由数量有限的内容提供方呈现的，用户可选择的余地较小，因此，智能推荐系统产生的基础条件并不具备，也就不存在智能的个性化推荐。大数据基础上的个性化内容需求。大数据基础上的个性化内容需求。随着内容非中心分发形式的发展，呈献给用户的内容品类和数量均在快速增长。由于每个用户的兴趣和关注点各不相同，因此在海量内容池基础上对内容提出个性化需求具有了数据准备。内容获取方式的改变。内容获取方式的改变。以往的阅读和观看习惯通

21、常是用户主动寻找感兴趣的内容，这也被称为“拉”（pull）模式，即用户寻找内容。面对海量的内容数据，用户很难从中选出真正满足自己兴趣和需求的内容，因此出现了算法推荐系统，它主动从海量内容中进行过滤筛选，为用户推送其感兴趣的内容，因此也被称为“推”（push）模式，即系统推送内容给用户。智能推荐系统和用户在不断改变和“驯化”对方，用户习惯的改变既是这个过程的一个原因，也是其中一个结果。第2节关联规则推荐算法一、关联规则推荐算法的起源、应用和发展一、关联规则推荐算法的起源、应用和发展关联规则推荐算法的起源：关联规则推荐算法的起源：关于关联规则算法的起源，人们普遍认为它源于“啤酒和纸尿裤”的故事。

22、在物质条件、技术条件、用户群体形成和用户习惯养成的基础上，想要真正搭建一个算法推荐平台，需要实现具体的推荐算法。在20世纪80年代，美国连锁超市沃尔玛公司有一些销售人员想对销售记录进行分析，以改进商品的销量。经过数据分析，他们发现很多销售小票上都同时出现了“啤酒”和“纸尿裤”这两样商品。而直观上看，“啤酒”和“纸尿裤”是两种完全不同的商品，其属性、受众和使用场景都非常不一样，其共现似乎与一般的消费行为是相悖的。那么，它们为什么会频繁地出现在同一次购买记录里呢？分析人员推论认为，对于有婴幼儿的家庭，如果由父亲去超市进行日用品采购，则纸尿裤通常是列在采购清单的；同时，父亲们也顺便给自己购买了啤酒，

23、因此导致这两种看起来不相关的商品能频繁出现在同一次购买中。针对这样的发现，超市排货架的人员可以进行货品摆放的调整，把啤酒和纸尿裤放到靠近的位置，来提高两种商品的销售额度。“啤酒和纸尿裤”的故事是典型的关联规则应用的例子。通过计算，对于存在较高关联性的若干类产品、项目或内容，可以给相关用户或者受众进行推荐，以达到更好的推荐效果。其中，“共同出现共同出现”就是一种关联规则。就是一种关联规则。关联规则推荐算法的应用：关联规则推荐算法的应用：关联规则推荐（关联规则发现）也称“购物篮分析”。购物篮分析的名字沿用了“啤酒和纸尿裤”的案例，目的是想了解用户究竟会把哪些商品放入自己的购物篮，也就是哪些商品之间

24、更具有相关性。从广义上讲，“购物篮分析”的目的就是研究事物之间的关联性和依存性。关联规则分析在金融、搜索引擎算法优化以及智能推荐等多个领域均有广泛的应用。在金融行业可以考虑理财产品与银行零售客户的交叉销售分析。研究向银行的哪些零售客户推荐哪些理财产品能达到产品推荐的最优化，这就需要进行银行零售产品与理财产品的关联分析。在搜索引擎算法优化领域，用户在搜索框输入部分搜索关键词时，搜索引擎即可推荐可能的完整搜索关键词，这样的过程称为“搜索词推荐”。它正是利用了关联规则，在系统中检索与用户已经输入的关键词存在关联性的词语进行搜索关键词补齐。例如，在搜索引擎中输入“算法”时，因为“工程师”“导论”等词与

25、“算法”关联性高，搜索引擎会尝试将输入的搜索关键词补齐为“算法工程师”“算法导论”“算法推荐”等。在算法推荐系统的领域，例如，基于用户兴趣的实时新闻推荐系统就可以应用关联规则的技术对用户实时推荐其可能感兴趣的新闻。即哪些新闻与用户已读新闻的关联性更高，就将其推送给用户。因此关联规则推荐的应用场景为，算法试图发现不同的商品或者内容之间的关联关系，并且根据用户的喜好，利用这些关系来对这些内容和产品进行打包推荐。关联规则推荐算法的发展：关联规则推荐算法的发展：1993年计算机科学家拉凯什阿格拉瓦（RakeshAgrawal）等人首先提出了关联规则的概念并给出了一个相应的关联规则挖掘算法。由于该算法的

26、性能并不太好，在1994年阿格拉瓦等人提出了著名的Apriori算法，该算法是一个经典的关联规则发现算法。随后在学界也有很多研究人员投入对关联规则推荐算法的研究中，提出Apriori算法的改进版本以及其他新的关联规则挖掘算法。著名的华人计算机科学家韩家炜教授也在数据挖掘、关联规则推荐等相关领域做出了杰出贡献。提要：提要：关联规则推荐算法起源于业界对于商品销售相关性的分析研究，其基本原理是，有一定关联性（相关性）的商品更容易被消费者同时购买。当前，关联规则分析在算法推荐、搜索引擎乃至金融行业等多个领域都有广泛应用。支持度（支持度（Support）：）：在一定时间段内，A和B两条内容在用户使用系统

27、阅读内容时同时出现的概率，即A与B同时被阅读的概率。以A表示内容A的阅读数，B表示内容B的阅读数，计算支持度的公式为：由于用户的阅读行为是线性的，即每个用户在同一时间点只能阅读一篇文章，因此将总阅读数N理解为一段时间内所有用户使用算法推荐系统次数的总和。支持度计算公式中，AB表示内容A和B在用户使用一次算法推荐系统的过程中被阅读，（AB）表示N次总阅读数中，A和B同时被阅读的次数。支持度的概念表示两种内容有多大的可能性被同时阅读，与集合论中“交集”的概念有相似之处。计算A、B两个内容同时被阅读的情况在总体的阅读量中占多少，就相当于计算集合A（内容A的阅读次数）与集合B（内容B的阅读次数）交集部

28、分占总共阅读量的比例。二二、关联规则推荐算法的概念和原理、关联规则推荐算法的概念和原理置信度（置信度（confidence）：）：用户读完内容A之后再读内容B的条件概率会有多大。计算置信度的公式为：其中，Freq（AB）的含义与支持度公式中的相同，表示内容A和B同时被阅读的次数，Freq（A）则表示内容A被阅读的次数。从集合的角度理解，圆形A表示阅读内容A的用户集合（以及次数），圆形B表示阅读内容B的用户集合（以及次数），则置信度考虑的是图中交集部分C在集合A里的占比有多大，即用户先读A再读B的概率有多大。因此，计算置信度公式的分母就不再是整体的阅读量而是内容A的阅读量。如果A和B之间的置信度

29、较大，则表示读过A内容的用户会有较大可能去读B内容，这就是置信度的含义。提升度（提升度（Lift）：）：用户先阅读内容A对用户阅读内容B的概率的提升作用。计算公式如下：对公式进行变形，得到LiftSupport（AB）/Support（A）/Support（B），改写后公式的含义为A和B交集的支持度先除以A的支持度再除以B的支持度。Support（AB）/Support（A）的含义是读了内容A之后用户有多大可能读内容B（即A对B的影响），于是A对B的影响占内容B的所有阅读量的比例，即为A对B的提升。提升度用于判断规则是否真的有实际价值。即使用规则后（给阅读A的用户推荐B），被推荐内容（B）在其

30、实际阅读中的次数是否高于内容（B）单独被阅读的次数。通俗地讲，就是读了A的用户去接受推荐阅读B，占据全部阅读内容B用户的比例。相当于在系统中，先给用户推荐内容A，再为其推荐内容B，是否会对阅读B的总体用户数有提升。如果使用规则导致B的阅读次数增多，则A与B的关联规则对推荐效果有提升作用。一般来说大于1表明关联规则有效，小于1则说明关联规则的效果不好，这就是提升度这个指标的含义。因此，对于关联规则推荐算法，可以使用支持度、置信度和提升度来衡量关联规则的效果。三、关联规则挖掘：三、关联规则挖掘：AprioriApriori算法算法使用算法求得关联规则之后，可以用支持度、置信度和提升度来量化地衡量这

31、些规则。那么如何挖掘出这些规则呢？下面介绍一个“两阶段两阶段”式关联规则挖掘算法式关联规则挖掘算法。第一阶段：第一阶段：从原始资料集中找出所有的高频项目集合。所以第一步我们要从我们所有已知的资料集合中找出所有的高频项目。仍然使用支持度来衡量一个由若干项目组成的集合出现的频率，以一个包含A、B两个项目的集合S为例，若S的支持度大于等于所设定的最小支持度门槛值，则S就是高频项目集。算法逐个查找并产生包含1、2、3乃至更多个项目的高频项目集合，直到无法再找到更长的高频项目集合为止。第二阶段：第二阶段：产生关联规则。例如，高频项目集合 A，B产生规则AB，如果项目A、B之间的置信度大于系统要求的最小置

32、信度，则称AB为关联规则。所以两阶段算法的过程是，第一步寻找经常一起出现的项目，第二步验证项目之间的置信度并确认关联规则。AprioriApriori算法：算法：基于两阶段算法的思路，阿格拉瓦等人提出了 Apriori算法，它是目前最有影响力的关联规则挖掘算法。第一步算法产生频繁的项集，第二步会产生只包含频繁项的关联规则，因此重点是频繁项集和规则。对于用户某一次打开算法推荐系统应用的行为，系统记录如表5-1所示的用户阅读数据。例如，用户阅读行为001中，相应用户在本次使用系统时阅读了编号为1、3、4的这三篇文章；用户阅读行为002中，相应用户阅读了编号为、3、5的这三篇文章。假设最小支持度定为

33、2。首先检查长度为1的频繁项目集合（即包含一个元素的频繁项目集合）。把表5-1改造为表5-2所示的长度为1的阅读项目集合。集合 1，2，3，5出现的次数都大于等于最小支持度2。也就是说在表5-1的数据集上，这些文章被阅读的次数不少于两次。而集合4仅在编号为001的用户阅读中出现一次，因此将其排除出频繁项目，今后长度大于1的集合也不可能包含文章4了。于是生成了长度为1的频繁项目集合，也就是，只考察一个项目时，哪些长度为1的集合能满足最小支持度的要求，参见表5-3。对于集合 1，2，3，5，在其基础上可以进一步组合出来长度为2即包含两个项目的频繁项目集合。使用组合的方式得出如表5-4所示的可能的长

34、度为2的候选频繁项目集合。对于项目集合 1，2和 1，5，文章1和2只在003这次阅读里面共同出现过，文章1和5也只在003这次阅读里面出现过，两组的支持度都小于2，因此不可能作为频繁项目集合，舍弃之。后续扩展出的长度为3、4、5乃至更多的频繁项目集合也不可能包含文章1和2或者文章1和5同时出现的情况。及时舍弃不满足要求的候选频繁项目集合对于提升算法效率是一个有效的方法。由表5-4长度为2的候选频繁项目集合，得出包括两个项目的频繁项目集合，如表5-5所示。最小支持度为2的前提下，它们是频繁的。接下来尝试生成长度为3的频繁项集了。把表5-5左列四组数据进行组合，组合出不重复的包含三个元素的集合。

35、例如 1，2，3、1，3，5，由于 1，2和 1，5的支持度小于2，在它们的基础上再扩展不可能扩展出频繁项目集合，因此舍弃之。只有 2，3，5这三项满足同时被阅读的关联支持度不小于2，即阅读行为002和003。因此 2，3，5是一个频繁项集。再往后扩展，表5-1示例数据中，不存在长度为4的频繁项集。只有003这次阅读涉及4篇文章，编号为1、2、3、5，但是 1，2，3，5这个集合的支持度仅为1，所以包含4个条目的频繁项集是不存在的。因此文章2、3、5是频繁共现的，基于这一规则，系统就可以进行关联推荐。譬如可以给读了文章2和3的用户推荐文章5，或者给读了文章2和5的用户推荐文章3，等等。在历史数

36、据的基础上，Apriori算法按照指定的最小支持度，逐步扩展出长度为1、2、3乃至更多的频繁项集，直至无法扩展。也就是，首先考察哪些文章会被频繁地阅读，然后考察哪两篇文章在一起会被频繁地阅读，再考察哪三篇文章在一起会被频繁地阅读，依此类推，逐渐挖掘出同时频繁出现的数篇文章。在此基础上，得出关联规则。关联规则在推荐系统的应用：关联规则在推荐系统的应用：关联规则挖掘的应用过程是这样的：首先需要积累用户的行为数据，否则一切无从谈起。在用户行为数据的基础上，进行关联规则的挖掘。使用的算法包括Apriori或者其他改进的算法。使用提升度来衡量挖掘出的关联规则是否有用。形成有效规则之后，即可将其应用到推荐

37、过程中。根据不同用户的标签，推荐与他们的标签存在关联关系的内容。由于不同用户的标签是不一样的，因此其被关联规则推荐的内容也是不一样的，这就实现了个性化推荐。关联规则推荐算法再讨论：关联规则推荐算法再讨论：首先，关联规则推荐算法是从大量数据上进行相关挖掘，因此其计算量较大。但是可以使用离线计算的方式挖掘关联规则，因此计算量大的问题不会对算法的应用造成太大影响。其次，关联规则推荐算法需要采集用户数据，所以不可避免地就会存在冷启动和用户数据稀疏性的问题。对于新用户或者行为数据较少的用户，如果想对此类用户进行关联推荐，就会存在数据量不足的问题。另外，系统中的热门项目，容易存在被过度推荐的问题，这是因为

38、关联规则的挖掘是基于项目的频繁程度生成的。热门项目往往会出现在频繁项目集合中，如果进行调配的话，就会存在热门项目被过度推荐的“强者愈强”的现象。在真实系统中，通过对热门项目降低权重，可以一定程度上缓解关联规则推荐中热门项目被过度推荐的问题。第3节推荐算法的评估对于推荐算法来说，存在一些对其进行评估的方法，包括在线评估和离线评估两种。一、推荐算法的在线评估：一、推荐算法的在线评估：ABAB测试测试在线评估：在推荐算法系统运行（“在线”）时对系统进行质量的评测。AB测试的方法和目的：测试的方法和目的：AB测试是一种真实的线上测试。在同一时间段内在系统中运行多种被测试方案，这些方案之间只有一个变量

39、不同，因此可以对比这一个变量对于系统的作用。在 AB测试中，需要提前设定明确的评价指标体系。AB测试将真实的线上用户进行随机分组，对不同分组提供不同的被测试方案。在一次实验之中，特定用户只能接触一个方案。AB测试的目的是通过科学的实验设计，把用户分成不同的样本，通过导流把用户导向不同的流量中去，通过每一个小流量的测试来获得具有代表性的实验结果，然后再试图把实验结果推广到全网运行。AB测试应用场景测试应用场景:1 1优化用户体验优化用户体验计算机系统与用户交互的中介称为“用户接口”或“用户界面”，目前多以图形用户界面为主。对于用户来说，对系统功能最直观的体验就是用户界面是否好用。为了优化用户体

40、验，可以根据既往的用户体验数据构建界面优化的假设，并使用测试进行验证，了解界面元素如何影响用户行为。2 2优化转化率优化转化率在电子商务领域有一个重要的概念“转化率”，通俗地理解就是用户的真实购买行为在用户点击网上某款商品行为数的占比情况。对于电子商务网站的商家，转化率的优化是一个重要目标。商家可以通过改进用户的体验来提高某个目标的转化率，例如通过测试来尝试和验证调整标题、图片等等页面元素是否可以优化转化率。3 3优化在线广告优化在线广告对于在线广告，可以设计不同的版本投放给多组用户，统计哪个版本的广告更能吸引用户点击，什么样的设计能够把访客转化为客户，达到在线广告的优化。4 4优化算

41、法优化算法以智能推荐算法为例，想要衡量不同的算法对于推荐效果的提升作用，也可以使用测试。AB测试的测评指标：测试的测评指标：1 1点击率点击率点击率是指在系统推荐给某个用户的内容中被点击内容的占比。假设系统一共向某个用户推荐了n条内容，但是用户未必全部点击和查看，令用户点击的内容数为m，则在这次测试的过程中，这个用户的点击率为点击率越高，就有越多的系统推荐内容被用户点击和阅读，算法推荐系统的效果就越好。2 2转化率转化率对于商品来说，转换率是指系统推荐商品的销售额与总销售额的比率。这个指标衡量系统的推荐行为有没有提升总的销售额。对于内容来说，转换率就是系统推荐内容的点击量或阅读时长与总体

42、的点击量或者是阅读时长的比例。如果系统的推荐能够提高点击量和阅读时长，则在总体的点击量和阅读时长上，被推荐内容的占比就会更高，转换率也就更高。则测试中对应的一个版本对推荐性能的提高效果更好。也就是说，转换率越高，推荐效果越好。提要：提要：测试对多组用户提供多个版本的系统进行对比，同一个用户只能看到一个版本，通过被试用户的行为数据统计不同版本的优劣，选择点击率、转换率等指标更高的版本作为优化版本大规模推广。二、推荐算法的离线评估二、推荐算法的离线评估离线评估：准确度指标离线评估：准确度指标准确率衡量查得准不准，即算法推荐的内容是不是用户感兴趣的内容；召回率考察查得全不全，即算法推荐的内容是不是

43、能够全部覆盖用户兴趣点的内容。由于准确率和召回率有时会出现调优上的矛盾，因此把准确率和召回率结合起来，形成一个综合考察的标准F Measure（或称F Score），F Measure是准确率和召回率的加权调和平均。例如，F1 Measure是一个常用的F Measure（参数为2时的加权调和平均），F1 ，如果 F1的值较大，则算法的查全和查准都较高。离线：不需要直接从正在运行的系统中取得评估数据，而是从系统运行一段时间积累的数据得出分析结果。离线评估：非准确度指标离线评估：非准确度指标1.个体多样性：衡量用户的推荐列表内的所有项目的平均相似度。2.新颖性：衡量推荐列表中项目的平均流行度。3

44、.整体多样性：衡量系统给不同用户的推荐列表之间的重叠程度有多大。4.覆盖率：测量推荐系统推荐给用户的全部项目占系统内所有项目的比例。提要：提要：可以使用离线评估的指标评价算法推荐的质量，例如针对用户级别的“个体多样性”“新颖性”，针对系统级别的“整体多样性”“覆盖率”等。对于算法推荐系统来说，除了在技术上提升这些指标之外，还可以在指标之上，走得更远一些。本章小结智能推荐系统得以兴起和繁荣离不开多种前置技术条件的支持和社会智能推荐系统得以兴起和繁荣离不开多种前置技术条件的支持和社会历史条件的准备。具体包历史条件的准备。具体包括大数据技术、机器学习算法、移动互联网括大数据技术、机器学习算法、移

45、动互联网的发展以及用户行为和习惯的改变。的发展以及用户行为和习惯的改变。0101020203030404通过讲解通过讲解Apriori算法，介绍了两算法，介绍了两阶段的高频项目集合生成以及规阶段的高频项目集合生成以及规则发现算法，并介绍了关联规则推荐算法可能的改则发现算法，并介绍了关联规则推荐算法可能的改进及其演进方进及其演进方向。作为对比，本章比较了关联规则推荐算法与协同过滤算法的异向。作为对比，本章比较了关联规则推荐算法与协同过滤算法的异同。同。关联规则推荐算法在智能推荐算法体系中发端较早，本章以关联规关联规则推荐算法在智能推荐算法体系中发端较早，本章以关联规则推荐算法为例，具体介绍智

46、能推荐算法的原理和过程。则推荐算法为例，具体介绍智能推荐算法的原理和过程。最后介绍如何对推荐算法进行评估，给算法推荐系统提供算法选择最后介绍如何对推荐算法进行评估，给算法推荐系统提供算法选择的依据。在线的依据。在线AB测试可以考察同一变量的不同情况对算法效果的测试可以考察同一变量的不同情况对算法效果的影响，离线的准确影响，离线的准确度及非准确度衡量指标亦能提供量化评估。度及非准确度衡量指标亦能提供量化评估。思考当前一些短视频类移动应用软件成为互联网应用新的增长点，具有用户黏性高、使用时间长等特点。甚至出现有些用户为了防止沉迷而主动卸载相关软件的现象。请尝试使用两种及以上短视频内容移动应用，对

47、比分析：此类软件使用何种推荐算法和策略？算法推荐的内容是否是你感兴趣的内容，如果不是，你会继续使用该软件吗？在何种情况下你愿意主动结束观看短视频推送并且关闭软件？试述以下场景中，协同过滤算法、关联规则推荐算法、其他算法或多种算法的结合，哪个为最佳实践，并论证观点。场景一：在一个知识分享和问答社区，给老用户推送社区中的一个新问题，试图引导该用户对问题进行解答。场景二：在一个视频网站，给用户推荐可能感兴趣的电视剧，试图尽量提高推荐列表的观看率。简述关联规则推荐的基本过程。对推荐算法进行评估有哪些方法？其评估方案和标准是怎样的？到本章为止已经学习了“协同过滤算法”“关联规则推荐算法”以及“基于内容的推荐算法”，请尝试比较这几种算法的异同及其适用场景。实训01020304

展开阅读全文