1、第7章 用户画像及 推荐系统商业智能:方法与应用目 录O N T E N T S7.1 用户画像7.2 推荐系统用户画像基本概念单个用户画像流程群体用户画像流程用户画像评估用户画像应用推荐系统基本概念相似度度量方法及最近邻确定基于用户的最近邻推荐基于物品的最近邻推荐基于用户与基于物品的方法的比较基于模型的协同过滤7.1 用户画像用户画像基本概念单个用户画像流程群体用户画像流程用户画像评估用户画像应用用户画像基本概念定义特点 分类l单个用户画像 研究对象:某一特定场景下的具体用户 目标:对不同用户做出个体区分,深入了解用户需求l群体用户画像 研究对象:某一特定情境下的特定用户群体 目标:将具有相
2、似特征的用户聚类,方便进一步识别用户群体l真实性l标签化l动态性l领域性 l用户角色(User Persona)倾向于从不同群体中抽象出不同类型的用户角色l用户画像(User Profile)用户信息的标签化;侧重于从不同维度对同一类用户进行刻画,从而进一步细分某一类用户单个用户画像基本流程03 特征提取兴趣属性标签单个用户画像基本流程图单个用户画像基本流程01 数据收集数据类型某电商网站数据分类图行为类型搜索浏览购买发表点赞 接触点帆布鞋匡威 双 十 一大促页 用户数据 静态信息数据商业属性职业动态信息数据人口基本属性性别年龄地域婚姻状况消费等级消费周期行为数据 消费数据消费商品消费总额单个
3、用户画像基本流程01 数据收集数据收集方法123社会调查通过访谈、观察、调研等社会调查的方法,直接收集获取用户画像所需要的数据平台数据库直接从企业数据库采集用户数据或购买接口获得数据 网络数据采集使用网络采集方法获取用户公开数据,如:网络爬虫等单个用户画像基本流程02 数据清洗01去除/补全有缺失的数据去除/修改格式和内容错误的数据去除非必需数据02030504去除/修改逻辑错误的数据不同来源数据关联性验证03 特征提取人口属性标签单个用户画像基本流程人口属性标签内容 性别、年龄、职业、收入等个人信息人口属性标签特点 比较稳定,且在实际应用中不是全部用户提供人口基本属性数据构建人口属性标签方法
4、 标签扩散模型用填写信息的用户作为样本,对无标签用户进行属性预测有信息的用户行为特征模型无信息的用户提取训练预测人口属性标签建立过程示意图03 特征提取兴趣属性标签单个用户画像基本流程 活跃用户用户画像构建方法 分析用户发表文章生成相应兴趣画像获取文章关键词构建兴趣偏好词典赋予不同兴趣偏好权重得到活跃用户兴趣爱好标签 非活跃用户用户画像构建方法 分析用户关注账户或点赞文章计算用户所关注账户信息或所点赞文章信息中每个实体概念所属网站类别的权重得到由网站类别构成的兴趣爱好得到非活跃用户的兴趣爱好03 特征提取地理位置属性标签单个用户画像基本流程常驻地属性标签 基于用户的IP地址信息,对用户的IP地
5、址进行接续,得到常驻城市标签GPS轨迹数据 从手机基于位置的服务(LBS)进行收集导航类APP获取LBS日志数据清洗与汇总 LBS位置与POI匹配用户POI场景判断POI类型到访次数时间段分布天数分布居住工作购物就餐GPS地理位置画像流程单个用户画像基本流程03 特征提取兴趣属性标签用户画像标签体系群体用户画像流程01n 单个用户画像获取 数据收集、数据清洗和特征提取方法获取用户画像数据 推荐系统的数据统计模块获得用户画像数据02n 用户画像相似度计算(1)定量标签相似度计算 计算公式:不同定量标签数据归一化处理方法:线性函数转换、对数函数转化、反正切函数 转化等 定量标签距离计算方法:欧式距
6、离、曼哈顿距离、余弦相似度、Jacard系数等(2)定性标签相似度计算 将定性标签映射为定量标签,采用定量标签相似度计算方法 基于概念的相似度计算方法群体用户画像流程03n 用户画像聚类及群体用户画像生成 用户画像聚类:对单个用画像根据相似度计算结果进行分类 聚类原则:使类别内差异最小,类别间差异最大 聚类目标:发现用户画像建隐含关系,提取核心用户画像 群体用户画像生成:根据聚类结果,抽象出每个聚类群体的典型用户画像用户画像评估010203定义:被打上正确标签的用户比例计算公式:准确率定义:被打上标签的用户占全量用户的比例计算公式:覆盖率不同特征标签时效性要求不同,需要建立合理的更新机制,以保
7、证标签时间上的时效性时效性用户画像应用应用二应用一应用三基础信息查询构建用户画像的基础上建立用户标签库及用户关系库,实现基础信息查询,便于企业深入了解用户需求精准营销依托用户画像,分析用户的行为习惯及消费习惯,为用户的消费行为打上专属标签,进而实现精准推送产品或服务优化用户画像实现对不同特征的用户进行路径分析,发现用户从新用户到流失用户的隐含原因,进而实现公司运营优化用户画像应用应用四应用五个性化业务定制主要包括个性化推荐、个性化支持和个性化信用评级,同时根据用户实时行为,不断调整用户画像,对定制内容实时反馈调整企业战略制定用户画像在宏观层面的重要意义主要体现在市场走向判断、用户群体划分和产品
8、定位三个方面7.2 推荐系统推荐系统基本概念相似度度量方法及最近邻确定基于用户的最近邻推荐基于物品的最近邻推荐基于用户与基于物品的方法的比较基于模型的最近邻推荐7.2.1.1 推荐系统基本概念定义推荐系统是为满足电子商务发展和解决网络信息超载而产生的。比如基于内容的推荐算法、基于协同过滤的推荐算法、基于知识的推荐算法、基于社交网络的推荐算法等。协同过滤推荐算法 :推荐系统中最早、最成熟的技术。7.2.1.2 协同过滤推荐定义协同过滤推荐算法即根据用户过往对物品或信息的偏好,发现物品或内容本身的相关性,或者用户间的相关性,基于这些相关性预测出当前用户对其它物品或信息的喜好程度,以决定是否进行推荐
9、。从评分的角度可以解释为,用已知的评分去估计未知的评分。分类 基于记忆(memory-based)的基于模型(model-based)的基于用户(user-based)的最近邻推荐基于物品(item-based)的最近邻推荐7.2.2 相似度度量方法及最近邻确定欧几里得距离(Euclidean Distance)皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)相似度度量方法010203)(),(2iiyxyxd),(11),(yxdyxsim22)()()()(),(),(yixiyixiyxyxyxPearson
10、yxSim2222),(iiiiyxyxyxyxyxT7.2.2 相似度度量方法及最近邻确定确定邻居用户/物品通常有以下两种方法:给定邻居数量来确定最近邻(K-neighborhoods),如图1.1左。以达到相似度门槛的邻居作为最近邻(Fix-size neighborhoods),如图1.1右。图7.4 最近邻居的选择7.2.3 基于用户的最近邻推荐定义基于用户的最近邻推荐算法是利用这些相似或同类用户对商品评分的加权平均值,来预测目标用户对特定商品的喜好程度,从而根据这一喜好程度对目标用户进行推荐。算法过程 :(1)收集用户的偏好(2)确定最近邻居用户(3)评分预测7.2.3 基于用户的最
11、近邻推荐(1)收集用户的偏好 评分大体上可分为显示评分(explicit feedback)和隐式评分(implicit feedback)两种。评分是由用户对物品的喜爱程度所决定的,可能是连续的值,也可以是离散的值。用户行为用户行为类型类型特征特征作用作用打分连续分值离散分值顺序分值通常为整数量化的偏好,可能的取值是0,n,n为正整数通过用户对物品的打分,精确得到用户的偏好投票二元评分 布尔量化的偏好,取值是0或1通过用户对物品的投票,可以较精确得到用户的偏好转发一元评分 布尔量化的偏好,取值是0或1通过用户对物品的转发,可以精确得到用户的偏好;同时可以推理得到被转发人的偏好(不精确)点赞/
12、收藏 一元评分 布尔量化的偏好,取值是0或1通过用户对物品的点赞或收藏,可以精确得到用户的偏好标记标签文本一些词语,需要对文本进行分析,得到偏好通过分析用户的标签,可以得到用户对内容的理解,同时可以分析出用户的情感:喜欢还是厌恶评论文本一段文字,需要进行文本分析,得到偏好通过分析用户的评论,可以得到用户的情感:喜欢或是厌恶(2)确定最近邻居用户 利用用户的历史喜好信息,通过上述相似度度量公式等计算相似度,计算出用户之间的距离,即用户之间的“近邻”关系。下表是用户Tom和其他两名用户对物品AD的评分数据。分值从1到5分别表示“非常讨厌”“讨厌”“中立”“喜欢”和非常喜欢。通过找出用户1和用户2中
13、谁是与Tom更相似的用户,进而根据该邻居用户对物品D的评分去判断是否应该给Tom推荐物品D。用户用户/物品物品物品物品A A物品物品B B物品物品C C物品物品D DTom524推荐?用户14153用户224317.2.3 基于用户的最近邻推荐 设U=u1,un代表用户集,P=p1,pm代表物品集。nm的评分矩阵R=rij,其中i1n,j1m。用Pearson相关系数来衡量两用户之间评分向量的相似度Sim(u1,u2),确定邻居用户集。相关系数的取值为-1,1,代表从强负相关到强正相关。7.2.3 基于用户的最近邻推荐首先,计算每位用户的平均评分u:5.2,25.3,67.321Tomuu 其
14、次,计算Tom与用户1的相似度:84.025.3525.3125.3467.3467.3267.3525.3567.3425.3167.3225.3467.35)()()()(),(2222222211,1,1,1,)()()()()()()()()()()()(-*-*-*-rrrruTomSimPpuuPpPpuupTompTompTompTom 同理可得到Tom与用户2的相似度为-0.84。综上,我们得出Tom的最近邻用户是用户1,相似度为0.84,意味着用户1 的评分行为与目标用户更为相似。7.2.3 基于用户的最近邻推荐首先,用户的评分需要按行进行均值中心化(mean-centere
15、d):即以每个用户对每一件物品的评分减去该用户的平均评分得到均值中心化的矩阵,如下表:(3)评分预测upu,pu,-r=s用户用户/物品物品物品物品A A物品物品B B物品物品C C物品物品D DTom1.33-1.670.33推荐?用户10.75-2.251.75-0.25用户2-0.51.50.5-1.57.2.3 基于用户的最近邻推荐其次,令V表示目标用户u的k个近邻的集合,故预测用户对某一物品的评分,可使用如下预测函数:示例中,Tom的邻居用户只有用户1,故得到:VvVvpv,upu,v)Sim(u,sv)Sim(u,r25.0-s41,pu42.384.025.084.067.3)(
16、-*r4Tom,p 由此预测出Tom对物品D的评分为3.42,故不建议推荐。7.2.4 基于物品的最近邻推荐定义基于物品的最近邻推荐算法是利用“物品”而非“用户”的相似度来预测目标用户还可能喜欢哪些物品或内容。简单来讲,基于用户是计算评分矩阵的行之间的相似度,而基于物品是计算列之间的相似度。算法过程 :(1)收集用户的偏好(同上)(2)确定最近邻居物品(3)评分预测(2)确定最近邻居物品 利用用户的历史喜好信息,通过上述相似度度量公式等计算相似度,计算出用户之间的距离,即用户之间的“近邻”关系。仍是以上述例子来说明。由余弦相似度公式,得到物品A与物品D的相似度(注意这里选择的必须是对相同物品都
17、做出评价的用户):7.2.4 基于物品的最近邻推荐41.0)5.1()25.0()5.0(75.0)5.1(*)5.0()25.0(*75.0),(22222,2,UupuUupuUupupu414141ssssppT(3)评分预测 同理,物品B与物品D的相似度:物品C与物品D的相似度:预测用户对某一物品的评分,依然可使用如下预测函数:7.2.4 基于物品的最近邻推荐通过比较,显然物品A是与物品D最相似的,物品B、C比较相近(余弦相似度均大于零)。15.0),(42ppT11.0),(43ppTPpiPppiu,ipu,iip),T(prp),T(pr 故由所有邻居物品的加权平均总和得到Tom
18、对物品D的预测评分:16.411.015.041.011.0415.0241.05*r4Tom,p4.16高于Tom的平均评分3.67,故可以选择推荐。基于用户和基于物品两种算法共同存在的问题:数据稀疏与冷启动长尾效应当物品的数量庞大而可用的评分数据太小时,得到的评分矩阵一般都非常稀疏,被称为冷启动问题。此时传统的协同过滤模型得到的预测往往会受到很大的影响。用户的评分频率通常会符合一种长尾效应,即经常被评价的热门物品的数量相对较少,而未被评价的冷门物品占绝大多数。7.2.5 基于用户与基于物品的方法的比较优点基于 物品精度较高;物品-物品的相似度能保证几乎不变;适合做线下预处理。缺点多样性较差
19、,推荐的物品不够灵活。7.2.5 基于用户与基于物品的方法的比较优点基于用户更具有多样性。缺点用户-用户的相似度不稳定;在离线阶段不能进行预处理;推荐结果不够精确。7.2.5 基于用户与基于物品的方法的比较7.2.6 基于模型的协同过滤定义基于模型的协同过滤推荐算法主要是通过数据挖掘或机器学习的方法离线处理原始数据来实现推荐。模型中常用的算法包括 :关联规则算法、聚类算法、分类算法、回归算法、矩阵分解、神经网络、隐语义模型等。优点不需要对物品或者用户进行严格的建模,不要求物品的描述是机器可理解的,所以这种方法也是领域无关的学习得到的模型大小远小于原始的评分矩阵,可节省空间系统在建立和训练模型的预处理环节所需时间较短,压缩和总结模型还可以加快预测,避免过拟合3.1.2 数据集市、元数据管理和数据质量管理7.2.6 基于模型的协同过滤计算出来的推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好缺点核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题推荐的效果依赖于用户历史偏好数据的多少和准确性对于一些特殊品味的用户不能给予很好的推荐3.1.2 数据集市、元数据管理和数据质量管理7.2.6 基于模型的协同过滤抓取数据和建模后,很难根据用户的使用演变及时修改模型少部分人的错误偏好会对推荐的准确度有很大的影响等谢谢大家!