1、情感分析Sentiment AnalysisSentiment Analysis12023-5-13背景互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。潜在的用户可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。22023-5-13情感分析(Sentiment analysis),又称倾向性分析,意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subj
2、ectivity analysis),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。32023-5-13正面与负面评价?42023-5-1352023-5-1362023-5-1372023-5-13使用twitter预测股市82023-5-13情感分析主要目的是识别用户对事物或人的看法、态度。参与主体主要包括:(1)Holder(source)of attitude:观点持有者(2)Target(aspect)of attitude:评价对象(3)Type of attitude
3、:评价观点 set of types:Like,love,hate,value,desire,etc.simple weighted polarity:positive,negative,neutral Text containing the attitude:评价文本,一般是句子或整篇文档92023-5-13从挖掘的对象(数据)来讲,又可以分为文档级别,句子级别和短语(词)级别三大类。102023-5-13按照处理文本的类别不同,分为基于新闻评论的情感分析和基于产品评论的情感分析。前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件
4、“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Iphone6s的外观很时尚”,表明了对评价对象“Iphone6s的外观”的评价“时尚”是褒义的。112023-5-13情感分析的难以程度:Simplest task:Is the attitude of this text positive or negative?More complex:Rank the attitude of this text from 1 to 5Advanced:Detect the target,source,or complex attitude types122023-5-13情感分析的一般
5、框架132023-5-13情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元。其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务。142023-5-13情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务。152023-5-131.评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语。评价词
6、语在情感文本中处于举足轻重的地位。主要有基于语料库的方法和基于词典的方法。162023-5-13基于语料库的方法:评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性;基于词典的方法:评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语。172023-5-132.评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等。182023-5-13基于规则/模板的方法:规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命
7、名实体识别、句法分析等;将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖”是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系,指示词“has”)之间的关联度来获取真正的评价对象。192023-5-133.观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”。命名实体识别技术序列标注知识图谱202023-5-134.组合评价单元的抽取单独的评价词语存在一定的歧义性,如评价词语“高”
8、在以下 3 个句子中的使用:Sen 1:Mac的价格真高.Sen 2:华为手机的性价比相当高.Sen 3:姚明有2米多高.212023-5-134.1 主观表达式的抽取主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组。评价词语是主观表达式的一部分。某些词语的组合(如 get out of here)也能很明显地标识文本的主观性。222023-5-134.2 评价短语的抽取评价短语表现为一组连续出现的词组,不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等。因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰
9、成分。这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元。232023-5-134.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对 评价对象,评价词语,如情感句“这件衣服价格很高”中的“价格-很高”。“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而其并非真正地表现出情感极性。如情感句“车跑得好快啊”中的词语“好”并不存在情感极性,需要过滤掉。此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定。242023-5-13情感信息的分类任务可大致分为两种:一种是
10、主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类。1)主客观信息分类;2)主观信息情感分类;3)观点分类与挖掘4)情感信息检索与归纳252023-5-13主客观信息分类情感文本中夹杂着少量客观信息而影响情感分析的质量,需将情感文本中的主观信息和客观信息进行分离。由于情感文本单元表现格式比较自由,区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度。262023-5-13情感信息的检索与归纳情感信息抽取和分类后呈现的结果并不是用户所能直接使用的。情感分析技术与用户的交互主要集中于情感信息检索和情感信息归
11、纳两项任务上。情感信息检索旨在为用户检索出主题相关,且包含情感信息的文档;情感信息归纳则针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果提供给用户参考,以节省用户翻阅相关文档的时间。272023-5-131.情感信息检索传统的搜索技术往往仅关注于检索事实性的相关文档。随着人们参与互联网建设的增多,尤其是博客、论坛、微博、微信的蓬勃发展,情感相关的文档逐渐成为用户检索需求的一部分。282023-5-13情感信息检索要求检索回的文档同时满足两项准则:(1)主题相关;(2)具有情感倾向性.292023-5-13一般而言,该任务主要包含 3 个步骤:结合传统的信息检索模型进行主题相关的文档
12、检索;相关文档的主客观识别。即针对某一主题的所有相关文档,判别它们的主客观性,并获取带有情感的主观性文档。主题相关的情感(主观性)文档排序。此时的排序策略需要同时兼顾文档的情感打分以及相关性打分。302023-5-132.情感信息归纳情感信息归纳往往以情感文摘的形式存在。传统基于事实性新闻语料的文摘旨在提取重要的事实性信息,并去除冗余信息。情感文摘的处理对象为某一产品或某一事件的大量用户评论,因此这种文摘融入了更多的情感信息。它主要侧重于提取具有明显情感倾向性的主观信息,是对某一产品或某一事件的评论信息的归纳和汇总。312023-5-13情感文摘共有两种呈现方式:一种是基于产品属性的情感文摘;
13、一种是基于情感标签的情感文摘。322023-5-131.基于产品属性的情感文摘产品属性特指在产品评论中的评价对象,如“相机质量”等。332023-5-13基于产品属性的情感文摘共包含 3 个重要的步骤:(1)识别出评论信息(句子或篇章)中的产品属性。即评价对象的识别;(2)抽取出描述产品属性的情感句,即针对产品的每一种属性,收集与其相关的所有的情感句;(3)针对产品属性的每一个情感句,判断其情感倾向性。这个步骤类似于句子级的情感信息分类任务 342023-5-13最终形式针对产品的每一项属性列出用户的各种情感信息形成情感文摘供用户参考。还可将一些统计信息也罗列出来,方便用户对多种产品进行对比。
14、如有的情感文摘将用户针对某一项属性的“支持”和“反对”情感句的个数列举出来。此外,还有情感文摘为每种产品计算出推荐等级等。352023-5-132.基于情感标签的情感文摘基于产品属性的情感文摘较为依赖情感分析的底层技术,且用户若想了解某一产品属性的具体情况仍需阅读大量标有“褒/贬”等情感类别的情感句,为了更便捷地为用户提供参考意见,基于情感标签的情感文摘应运而生。362023-5-13一般用若干个词语或短语的标签形式表现。这些标签能够很好地概括评论的主要内容,并以简短精悍的方式吸引了大量的用户群,可以看作是一种新形式的基于情感标签的文摘。372023-5-13存在一些问题:用户写评论时非常随意
15、,很有可能概括不全自己的评论;用户书写的评论用词较为丰富,不方便计算机自动对比两个相似产品。(自动生成标签)382023-5-133.基于新闻评论的文摘该种文摘和普通的新闻文摘比较类似,除了抽取重要的、信息含量大的核心句子之外,还要重视该句子中的情感信息。392023-5-13情感分析的评测与资源建设402023-5-131.情感分析的评测为了推动情感分析技术的发展,国内外的很多研究机构纷纷组织了一些公共评测。TREC;2006,博客NTCIR;2006,新闻COAE;2008412023-5-132.情感分析的资源建设(1)康奈尔(Cornell)大学提供的影评数据集,电影评论(2)伊利诺伊
16、大学芝加哥分校提供的产品领域的评论语料:主要包括从亚马逊和 Cnet 下载的 5 种电子产品的网络评论;(3)Wiebe 等人所开发的 MPQA(multiple-perspective QA)库:包含 535 篇不同视角的新闻评论(4)麻省理工学院的 Barzilay 等人构建的多角度餐馆评论语料;(5)中国科学院计算技术研究所提供的较大规模的中文酒店评论语料422023-5-13情感分析的词典资源(1)GI(general inquirer)评价词词典收集了 1 914 个褒义词和 2 293 个贬义词,并为每个词语按照极性、强度、词性等打上不同的标签;(2)NTU 评价词词典(繁体中文)
17、.该词典由台湾大学收集,含有 2 812 个褒义词与 8 276 个贬义词;(3)主观词词典,来自 OpinionFinder 系统。该词典含有8 221 个主观词,并为每个词语标注了词性、词性还原以及情感极性;(4)HowNet 评价词词典,该词典包含 9 193 个中文评价词语/短语,9 142 个英文评价词语/短语,并被分为褒贬两类432023-5-13应用442023-5-13用户评论分析与决策人们在购买某一产品之前,倾向于网上查询该产品的相关评论,并通过与其他产品的对比来作最终的决策。用户没有足够的时间和精力浏览全部的评论信息,导致最终的决策带有风险性。情感分析技术可以很好地解决这一
18、难题,通过分析挖掘统计归纳推理,给用户提供该产品各个属性的评价意见,方便用户作最终的决策。452023-5-13舆情监控依靠情感分析技术自动地对舆情信息进行监控。虽然目前这一应用点的研究成果还不是很多,但不影响其成为一个有价值的应用点。462023-5-13472023-5-13信息预测情感分析技术可以帮助用户通过对互联网上的新闻、帖子等信息源进行分析,预测某一事件的未来状况。482023-5-13需要进一步解决的问题:基础技术有待深化,比如自然语言处理技术;自然语言文本表达的多样化:比喻、附和、讽刺、正话反说。以及比较复杂的句式;情感标签目前比较粗糙;跨语言的情感分析值得探索。492023-
19、5-13工具:腾讯情感分析哈工大语言技术平台BOSON502023-5-13End512023-5-13一个简单的情感分析案例-影评进行情感分析522023-5-13步骤:1.Tokenization:正文提取,过滤时间、电话号码等,保留大写字母开头的字符串,保留表情符号,切词;532023-5-132.Feature Extraction:直观上,形容词直接决定文本的情感,而Pang和Lee的实验表明,采用所有词(unigram)作为特征,可以达到更好的情感分类效果。542023-5-133.使用不同的分类方法进行分类:如Nave Bayes、MaxEnt、SVM552023-5-13影评情感分类的难点:语言表达的含蓄微妙;挫败感表达方式:先描述开始的期待(不吝赞美之词),后表达最后失望感受562023-5-13情感词汇:情感分析模型非常依赖于情感词典抽取特征或规则572023-5-13