1、XXX大数据与网络舆情分析研究报告目录 CONTENTS网络大数据网络舆情 舆情指数案例分析 研究与反思网络大数据11.11.1大数据的概念123感知数据感知数据人类原创数据人类原创数据运营数据运营数据人类社会数据生产方式世界知名的咨询公司麦肯锡最早提出了“大数据”的概念,麦肯锡认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。1.11.1大数据的概念研究机构 Gartner 将大数据定义为:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.11.1大数据的概念维基百科对“大数据”的解读是:“大数据
2、”(Big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。1.11.1大数据的概念传媒专家刘建明教授认为:“大数据”同信息是不可分离的,是指信息浩大数量的统计与技术运作。作为人类认知社会方法的一次飞跃,“大数据”技术将给企业运营、政府管理和媒体传播的科学化创造有效机制。1.11.1大数据的概念“大数据”不是部分,而是全部数据是不确定、不准确的信息着重在了解是“什么”而不是“为什么”1.11.1大数据的概念大数据时代 维克托迈尔舍恩伯格1.11.1大数据的概念大数据本身不是一种新的产品或新的
3、技术大数据的出现只是数字化时代数据量不断增加的一种现象1.11.1大数据的概念MBGBTBPBEBBZB海量数据大数据1.11.1大数据的概念1.21.2大数据的发展进程0302011966年摩尔定律提出,为大数据现象的形成奠定物理基础1989年数据挖掘技术产生,大数据有了大价值2004年社交媒体出现,全世界每个人都变成了潜在数据生成器1.31.3大数据的特点数据自身的状态与价值随着时空变化而不断发生演变Variety(流动速度快)数据的价值没有随数据量的指数增长呈现出同比例上升Value(价值巨大但密度低)结构化数据、半结构化数据和非结构化数据Velocity(数据类型繁多)大量交互数据被记
4、录和保存,数据规模从TB到PB数量级Volume(数据体量巨大)4 个 V: Volume、Velocity、Variety、Value1.31.3大数据的特点1大数据传统的小数据现代的大记录2大数据结构化数据非结构化数据3大数据=大价值+大容量1.41.4大数据如何产生微博微博云云计算计算LBS物联网物联网托马斯H达文波特:大数据之所以产生,是因为传感器和微型计算机处理器在人们日常生活中无处不在。1.41.4大数据如何产生网络舆情的大数据时代来临12354Google400PBFacebook10亿照片300TB微 信百 度 云每个人1天200G月活8亿5000国图1.51.5网络大数据网络
5、舆情22.12.1舆情的概念舆情指在一定的社会空间内, 围绕中介性社会事项的发生、发展和变化,作为舆情主体的民众对国家管理者产生和持有的社会政治态度。广义的舆情,就是指民众的全部生活状况、社会环境和民众的主观意愿,也就是通常所说的“社情民意”。2.22.2网络舆情的概念网络舆情是社会舆情的一种表现形式,指在一定的网络空间中,各种社会群体对自己关心或与自身利益相关的热点事件或事物所表现出来的具有一定影响力并带有倾向性的认知、情绪、态度和意见的总和。传播互动网民情感互动影响力网络事件01020304主观性与非理性社会情绪的原生态表达网络谣言与负面情绪扩散多元性信息内容多元传播途径与表达方式多元意识
6、形态与观点内容多元突发性基于网络双向传播社会舆论导火索广泛性参与人员类型广泛涉及地域范围广泛2.32.3网络舆情的特点2.42.4网络舆情的信息来源政府网站高高低低新闻媒体高高中中社交平台低低高中网络媒体中中中中中来源 准确度权威度参与度针对性主动报送中高高网络舆情信息来源指标特点2.52.5网络舆情传播的特点跨时空性:信息突破了空间的限制,实现了信息的跨时空传播1234强制互动性:信息由单向传播变成双向互动,公众由接受者变为参与者和生产者及时性:即时编辑、及时发布、即时传播、即时互动、及时反馈群体极化性:信息的倾向性对受众的思想形成一定的支配性,形成群体极化2.62.6网络舆情的演变过程舆情
7、影响萌芽扩散爆发波动消退经历时期表2.1:网络舆情演变模型2.72.7网络舆情的演变过程舆情影响萌芽扩散爆发波动消退经历时期表2.2:网络舆情预警模型良好正常隐患不安全危险2.72.7网络舆情的演变过程舆情影响萌芽扩散爆发波动消退经历时期表2.3:政府应对舆情模型良好正常隐患不安全危险启动舆情监测制定应急预案制定保障方案实施信息公开专家网上答疑关注意见领袖网民互动交流事件初步解决公开进展信息引导舆情过渡事件经验总结监测衍生舆情舆情指数33.13.1网络舆情指数的概念舆情指数是通过对网络中各种类型媒体所发布的信息进行独立的第三方观察,形成量化统计和定性分析,并结合算法推导、归纳总结而最终形成的一
8、套网络舆情指数体系。3.23.2网络舆情指数体系构建的基本原则科学性系统性全面性可行性动态性稳定性明确性目标性3.33.3互联网大数据挖掘技术数据库理论机器学习人工智能现代统计学3.33.3互联网大数据挖掘技术统计技术:对给定数据集合假设一个分布或者概率模型连接分析:从一些用户的行为中分析出一些模式, 同时将产生的概念应用于更广的用户群体中 决策树:一种预测模型,是直观运用概率分析的一种图解法人工神经网络:是一种模仿动物神经网络行为特征, 进行分布式并行信息处理的算法数学模型差别分析:目的是发现数据中的异常情况,从而获得有用信息概念描述:对某类对象的内涵进行描述,并概括其有关特征关联规则:目的
9、是找出数据库中隐藏的关联网3.43.4网络舆情监测指数体系(兰月新)指数一指数三指数四指数二传播扩散舆情受众发布主体内容要素指数体系1234名称一级指数二级指数三级指数网络舆情监测指数体系持续时间地理范围传播方式主体身份影响力活跃度意见倾向主题内容主题词热度主题敏感度视听化程度内容详略度态度倾向关注人数传播扩散时间跨度地理跨度网站、网媒、社交媒体意见领袖、普通网民发帖量、回复量支持、反对、中立社会热点、政治新闻、个人隐私、宗教政治转发量、评论量、阅读量敏感词声像资料量文本长度、图片连贯性、声像时长支持、反对、中立独立访问者、访问量发布主体内容要素舆情受众3.43.4网络舆情监测指数体系(兰月新
10、)3.53.5舆情大数据指数(刘建明)舆情大数据指数舆情大数据指数媒体传播力指数传播量传播量覆盖率覆盖率互动性互动性舆情影响力指数传播量传播量覆盖率覆盖率关注度关注度综合评价综合评价3.63.6网络舆情指数体系(IRI) “网络舆情指数体系(IRI)”是由中国传媒大学网络舆情(口碑)研究所设计,该指数体系是国内第一个权威的、可量化的、科学的网络舆情指数体系,重点突出网络舆情指数的实时动态性以及可理解、可描述、可解释等特点。123IRI网络舆情参与度网络舆情波及度网络舆情评价度网民在某网站中针对某一主题发布的信息量、回复量和浏览量的综合统计集中参与水平衡量所有网络媒体中相关信息的指标 广泛报道水
11、平整体态度倾向的指标3.73.7百度司南舆情系统指数声量诊断传播分析情感提炼某话题/人物/商品/事件在互联网上是否引起了关注度,关注量级与趋势如何舆情传播路径,识别传播节点,研判节点调性摩画网民情感倾向,提炼网民对事物的主要态度、关注面与侧重点人群分析舆情受众画像,偏好人群&厌恶人群特点3.83.8清博指数 以大数据为核心技术支撑,全方位整合传统门户、微博、微信、论坛、外媒等舆情信息矩阵,高效稳定的数据采集平台,深度分析挖掘网络舆情,预测消费者的商业兴趣与社交行为,为企业品牌评估、战略部署提供有力数据支撑。BCIBVIOCIWII-VRTGI标题内容WCI3.83.8清博指数-微信传播指数WC
12、I3.83.8清博指数-微博传播指数BCI指标体系: 主要通过活跃度和传播度两大维度来进行评价,发博数X1、原创微博数X2、 转发数X3、评论数X4、原创微博转发数X5、原创微博 评论数X6、点赞数X7。3.83.8清博指数-微博传播指数BCI3.83.8清博指数-网红指数OCI 网红指数OCI侧重于对网红传播力和影响力的量化评估,评估模型包括三大维度、十余项项量化指标,通过全网数据的采集,建立基于大数据的开放评估模型。3.83.8清博指数-VR指数WII-VR评估指数包括企业和产品的网络关注度(微博讨论及官微粉丝数、微信相关文章及总阅读数等),全网推广度(网页、新闻、官网、社交媒体平台等相关
13、信息推广)和网络热销度(主流电商平台:以淘宝/天猫和京东为主)三大维度。 3.93.9PDI(Pandata Index)全景数据评估指数全景数据评估指数PDI 1.0算法说明:使用文章数量、可见总流量、认同流量、可见峰值流量四个主要指标,并提出认同潜力值、可见峰值流量比率两个指标。本算法由上海交通大学大数据传播创新实验室综合多类资源提出,使用运筹学中的层次分析法(AHP)进行系数的确定,得到k_1=72.35%,k_2=19.32%,K_a=75%,_1=87.5%。案例分析44.14.1百度舆情研究院大数据中的“春运潮”变迁“百度迁徙”发布春运全国8小时最热线路图春运迁徙,40天,36亿人
14、次 春运槽点:“12306”“高价盒饭”“车站服务”“安检”“堵车”“晚点、滞留”4.14.1案例一:百度舆情研究院大数据中的“春运潮”变迁关注度0.3新闻指数0.3论坛指数0.2微博指数0.2微信指数正面舆情比例0.7正面舆情指数0.3中性舆情指数舆情压力指数=0.7 舆情事件个数+0.3 舆情关注度均值-正面舆情事件比例百度舆情研究院大数据中的“春运潮”变迁4.14.1关注度0.3新闻指数0.3论坛指数0.2微博指数0.2微信指数百度舆情研究院大数据中的“春运潮”变迁4.14.1百度舆情研究院大数据中的“春运潮”变迁正面舆情比例0.7正面舆情指数0.3中性舆情指数舆情压力指数=0.7 舆情
15、事件个数+0.3 舆情关注度均值-正面舆情事件比例4.14.1百度舆情研究院大数据中的“春运潮”变迁正面舆情比例0.7正面舆情指数0.3中性舆情指数舆情压力指数=0.7 舆情事件个数+0.3 舆情关注度均值-正面舆情事件比例研究与反思55.15.1大数据视域下舆情研究的转向研究视角的转向研究方法的转向 数据库支持的转向舆情研究主体的转向从单向度的内容研究转向“内容+ 关系”的多维度研究由舆情信息采集转向数据加工、可视化等由简单的、有限的数据库转向非结构化的大数据库由小作坊式的单打独斗、面面俱到舆情监控转向分工明确、高度聚合集约的舆情分析舆情研究重点的转向由舆情监测转向为舆情预警乃至预测,从单向
16、度的危机应对、品牌营销转向各领域的综合信息服务5.25.2大数据舆情能否代表社会民意 根据中国互联网络信息中心CNNIC第38次中国互联网络发展状况统计报告显示,截至2016年6月,中国网民已达到7.10亿,超过总人口的1/2。农村网民占总网民的26.9%,达1.91亿,而中国农村人口将近8亿,网民占比较低。即使上网,发表意见的也是少数。 陈力丹在舆论学指出: 在一定范围内有接近1/3的人持某种意见,这种意见由于开始对全部人产生影响,故它已经从少数人的意见转变为舆论。在一定范围内有接近2/3的人持某种意见,这种意见已经可以统领全局,当然更是舆论,而且成为主导舆论。 P4 要注意,不能轻易把网上
17、的意见视为舆论。网民占全国人1/3,网民在网上发表意见的人数,只占所有网民的2%,经常发表意见的人数更少。 P8 因此,网民大都属于沉默的大多数,通过技术手段抓取关键词呈现出的意见状况会出现代表性偏差,与符合真实情况可能出现不一致。5.25.2大数据舆情能否代表社会民意信息源头的污染 网民享有了表达意见的自由,但网络信息却并非态度、意见和情绪的直接和客观的反映。网络的虚拟性使得网络言论往往出现情绪化和极端化的现象。其次是大量网络水军的存在,会影响到对事实情况的判断。5.25.2大数据舆情能否代表社会民意 爱德华霍尔创建了高语境和低语境的概念。高语境是指对语境依赖程度较高的语言,如中文和日文。在
18、中文传播环境中,语言信息呈现在语境之中,高度依附语境。 使用爬虫等技术手段抓取的网络信息是有噪声的,在进行回归分析与差异分析时,不能彻底摆脱高语境依赖,由此得出的分析结果并不能完整的解释其实际意义,进而也会干扰舆情判断。5.25.2大数据舆情能否代表社会民意 大数据是原材料,算法是核心。大数据往往是TB甚至PB量级的,在舆情指数分析中的数据也只是大数据的冰山一角,并不是完全意义上的“大数据”。 在FiveThirtyEight美国大选数据分析预测中,Nate Silver曾在2008年成功预测50个州中的49个州的选举结果,2012年成功预测了50个州的结果。但在2016年的大选中,曾被称为神童的这些数据分析型政治记者走下了神坛。 数据并非万能的,它有盲点也会出错,用不同的算法可能会得到不同的结果。所以,在数据之外,对算法的合理性、科学性的考量需要不断改进。 因此,基于大数据数据分析的舆情分析相较于传统的舆情测量有其优势,但它的缺点也不能被忽视。ThankYou