1、第10章 评论文本数据的情感分析华南理工大学广州学院思维导图【开篇思考】小米董事长兼CEO雷军在2017年“哈佛中国论坛”的演讲中表示,互联网不仅仅是技术,更是从商业的角度教会企业如何能够做到极致的用户体验,如何能做到极致的运作效率。在新零售O2O的驱动下,小米开始尝试用互联网的方法做实体零售业,发现和电商成本差不多,甚至还更低。于是小米采用了线上线下相结合的模式。目前小米已经设立了70多家“小米之家”,目标是三年之内开到1000家,五年之内收入突破100亿美元。通过小米之家,小米连接了客户,与互联网紧密结合,让用户参与设计。小米坚信“不懂用户就没有设计”,所以要求员工去泡论坛、发微博,不断跟
2、用户交流,倾听用户的声音,让用户参与产品、营销的设计,这是小米商业模式的基础;同时坚持以用户反馈来驱动开发,大家公认的设计才是好设计。这种力量是循环互动的,当你很认真地对待用户的时候,用户也会用心地对待你。小米是怎样通过线上线下相结合的方式去了解客户的,客户又是利用什么渠道参与、体验和设计小米手机的?目录4商品评论文本分析的步骤和流程商品品论文本数据挖掘目标电商评论文本的数据采集评论文本数据的预处理文本分析模型的构建10.1 商品品论文本数据挖掘目标电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说也变得越来越有必要,其中非常重要的方式就是对消费
3、者的文本评论数据进行内在信息的数据挖掘分析。评论信息中蕴含着消费者对特定产品和服务的主观感受,反映了人们的态度、立场和意见,具有非常宝贵的研究价值。针对电子商务平台上的商品评论进行文本数据挖掘的目标一般如下:l 分析商品的用户情感倾向,了解用户的需求、意见、购买原因;l 从评论文本中挖掘商品的优点与不足,提出改善产品的建议;l 提炼不同品牌的商品卖点。目录6商品评论文本分析的步骤和流程商品品论文本数据挖掘目标电商评论文本的数据采集评论文本数据的预处理文本分析模型的构建10.2 商品评论文本分析的步骤和流程10.2 商品评论文本分析的步骤和流程电商商品评论文本分析的步骤和流程如图10.1所示,主
4、要包括以下步骤: 电商平台商品评论的数据采集; 商品评论数据的预处理,包括文本去重、机械压缩去词、短句删除、文本分词等操作; 文本评论数据经过处理后,选择适当的分析模型进行分析; 从对应结果的分析中获取文本评论数据中有价值的内容。目录9商品评论文本分析的步骤和流程商品品论文本数据挖掘目标电商评论文本的数据采集评论文本数据的预处理文本分析模型的构建10.3 商品评论文本的数据采集l 网络爬虫工具l R语言/Python语言等程序火车采集器目录11商品评论文本分析的步骤和流程商品品论文本数据挖掘目标电商评论文本的数据采集评论文本数据的预处理文本分析模型的构建10.4 评论文本数据的预处理l 文本去
5、重 检查是否是默认文本 是否是评论人重复复制黏贴的内容 是否引用了其他人的评论l 机械压缩去词例如: “好好好好好好好好好好”-“好”l 短句删除原本过短的评论文本 例如:很“好好好好好好好好好好”-“好”机械压缩去词后过短的评论文本 例如:“好好好好好好好好好好”-“好”l 评论分词 分词是中文文本信息处理的基础环节。在进行中文文本挖掘时,首先应对文本分词,即将 连续的字序列按照一定的规范重新组合成词序列的过程。目录13商品评论文本分析的步骤和流程商品品论文本数据挖掘目标电商评论文本的数据采集评论文本数据的预处理文本分析模型的构建10.5 文本分析模型构建情感倾向性分析语义网络分析基于LDA
6、模型的主题分析10.5.1情感倾向性分析(1)基于情感词表进行情感词匹配 要对评论情感倾向进行分析,首先对情感词进行匹配,主要采用词典匹配的方法。 2007年10月22日知网发布的情感分析用词语集(beta版),包括“中文正面评价”、“中文负面评价”、“中文正面情感”、“中文负面情感”词表。例如“满意”“好评”“很快”等为正面情感词表,“差评”“贵”“高”“漏水”等为中文负面情感词表。(2)对情感词的倾向进行修正情感倾向修正主要根据情感词前面两个位置的词语是否存在否定词来判断情感值的正确与否,常用的19个否定词:不、没、无、非、莫、弗、毋、未、否、别、休、不是、不能、不可、没有、不用、不要、从
7、没、不太。(3)对情感分析结果进行检验对于匹配好的情感词,可以通过词云来检验情感分析效果,例如:正面情感评论词云例子如图所示。“不错”“满意”“好评”等正面情感词出现的频数较高,并且没有掺杂负面情感的词语,可以看出,情感分析能较好地将正面情感评论抽取出来。词云10.5.2 语义网络分析评论的语义网络分析对象是消费者在评论中对产品独有优势、产品抱怨点以及顾客购买原因等。在此基础上,并结合前面的分析对品牌产品的改进提出建议。这个阶段主要通过不同产品或不同型号的好评、差评文本数据生成的语义网络图,结合共词矩阵以及评论定向筛选回查完成对评论的分析。语义网络是由RFSimon提出的用于理解自然语言并获取
8、认知的概念,是一种语言的概念及关系的表达。语义网络实际上就是一幅有向网络图,例如,“小明给小华一本书”的语义网络如图10.5所示。10.5.2 语义网络示分析基于语义网络进行评论分析的特点要想对中文评论进行合理的分析必须要采取的一项措施是分词,因为计算机不可能像人一样去识别每一个整句的语义,不能直接识别语句的整体结构思想,但是分词又会使得语句的整体结构变得凌乱,从而对分词后的语句直接进行诸如产品差异等复杂的分析变得不合实际,所以必须要采取方法尽可能地将这种原已凌乱的关系重新整合起来,使得复杂的分析重新变为可能例如:某热水器的特点是安装方便,但是通过分词后形成了“安装”、“方便”两个独立的词,单
9、独去看,可以产生不同的理解,安装可以是安装很容易,也可以是有师傅上门安装等等。当这种语义网络建立起来后,就可以借助它进行各种各样的特定的分析,特别是在判断特定产品优点、抽取各品牌的顾客关注点等上都具有一定的优势。10.5.2 语义网络示分析10.5.3基于LDA模型的主题分析LDA是由Blei等在2003年提出的生成式主题模型。生成模型,即认为每一篇文档的每一个词都是通过“一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”。LDA模型也被称为三层贝叶斯概率模型,包含文档(d)、主题(Z)、词(w)三层结构,能够有效地对文本进行建模,和传统的空间向量模型(VSM)相比,增加了概
10、率的信息。通过LDA主题模型,能够挖掘数据集中的潜在主题,进而分析数据集的集中关注点及其相关特征词。例如,选取差评中的一则评论:“售后服务差极了,不买他们的材料不给安装,还谎称免费安装,其实要收挺贵的安装费,十分不合理。这也算了,安装费之前说200元,安好之后要400元,更贵了,更加不合理,不管是安装师傅自己还是美的规定,都是很差很差的体验,我看其他人的了,一样的安装,比别人贵的安装费。而且安装师傅做事粗糙态度粗鲁”。在这则评论中,“安装费”和“安装师傅”在这则评论中出现频率较高,可作为潜在主题。同时,可以得到潜在主题上特征词的概率分布情况,反映潜在主题“安装费”的特征词包括“贵”、“不合理”
11、,反映“安装师傅”的特征词包括“粗糙”、“粗鲁”。本章小结 本章重点介绍了评论文本数据的情感挖掘分析步骤、预处理方法包括文本去重、机械压缩去词、短句删除、文本分词等,并重点解释了情感倾向性分析、语义网络分析和基于LDA模型的主题分析三个主要的情感分析算法的原理及使用方法。【实验与思考】1. 实验目的(1)学习运用八爪鱼软件对文本数据进行采集。(2)学习运用R语言对文本数据做数据清洗(预处理)。(3)学习运用R语言中的jeibaR程序包对文本做分词处理。2. 工具/准备工作开始本实验之前,请认真阅读课程的相关内容。准备一台可以上网的计算机或者移动设备。【实验与思考】3. 实验内容与步骤1)数据采集和整理(1)下载并安装八爪鱼软件。(2)选择电商平台的一种商品,对评论文本数据进行采集和存储。2)数据预处理和数据分析(1)在电脑上安装R软件以及jeibaR程序包。 (2)使用R语言中的jiebaR中文分词库对评论文本进行分词。(3)根据停用词库过滤停用词。3)根据情感分析的结果给出商品的优势特征和商品品牌的建议。