第7章 大数据与社交媒体的融合.pptx

上传人(卖家):无敌的果实 文档编号:6713344 上传时间:2023-07-30 格式:PPTX 页数:50 大小:22.48MB
下载 相关 举报
第7章 大数据与社交媒体的融合.pptx_第1页
第1页 / 共50页
第7章 大数据与社交媒体的融合.pptx_第2页
第2页 / 共50页
第7章 大数据与社交媒体的融合.pptx_第3页
第3页 / 共50页
第7章 大数据与社交媒体的融合.pptx_第4页
第4页 / 共50页
第7章 大数据与社交媒体的融合.pptx_第5页
第5页 / 共50页
亲,该文档总共50页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、大数据导论随着社会网络服务的发展,社交媒体作为人们传播信息和表达观点的重要渠道,包含大量丰富的有用信息,这些信息伴随社交媒体服务的兴起,形成了各种各样的社交媒体数据,比如微博类网站的文本信息流数据、媒体分享网站的多媒体数据、社交网站的用户交互数据、签到网站的地理位置数据、购物网站的消费数据等等,这些社交媒体数据已成为大数据最具代表性的数据来源之一。这些社交媒体多源数据从不同角度记录着人们的网络生活,并映射着物理世界。V1大数据导论目录7.1 什么是社交媒体7.2 社交媒体大数据的分析与挖掘7.3 社交媒体大数据的未来挑战7.4 社交媒体下大数据信息安全问题第7章 大数据与社交媒体的融合7.1什

2、么是社交媒体大数据导论社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义微信,时下最热门的聊天通讯软件,腾讯移动互联网应用领域的看家产品,主打熟人圈的社交媒体,其朋友圈/微信红包/公众号等成为人们日常生活的焦点微信是腾讯公司于2011年1月21日推出的一个为智能终端提供即时通讯服务的免费应用程序,微信支持跨通信运营商、跨操作系统平台通过网络发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容

3、的资料和基于位置的社交插件“摇一摇”、“漂流瓶”、“朋友圈”、”公众平台“、”语音记事本“、”小程序“等服务插件。微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义QQQQ,民间昵称“企鹅”,中国大陆即时通讯市场的王者,国人维系人脉的必备软件,手机用户基本装有的交友软件,红色围巾的小企鹅为其典型标志腾讯QQ是深圳市腾讯计算机系统有限公司开发的一款基于Internet的即时通信(I

4、M)软件。腾讯QQ支持在线聊天、视频电话、点对点断点续传文件、共享文件、网络硬盘、自定义面板、QQ邮箱等多种功能。并可与移动通讯终端等多种通讯方式相连。您可以使用QQ方便、实用、高效的和朋友联系,而这一切都是免费的。社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义抖音,是当下最热门的短视频平台,用户可以在抖音上上传、分享、评论短视频,成为大部分人生活中必不可少的一部分抖音,是由字节跳动孵化的一款音乐创意短视频社交软件。该软件于2016年9月20日上线,是一个面向全年龄的短视频社区平台。根据第48次中国互联网络发展状况统计报告,短视频用户规模达8.88 亿,较2020 年

5、12 月增长1440 万,占网民整体的87.8%。截止到2021年1月,抖音活跃用户达到4.90亿人,用户在抖音上可以上传一分钟左右的视频,并带有视频的剪辑,配乐等功能,非常方便,成为记录和分享生活的可靠工具社交媒体社交媒体的定义社交媒体的发展社交媒体也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台,现阶段主要包括博客、论坛、播客等等大数据导论7.1.1 社交媒体的定义社交媒体社交媒体的定义社交媒体的发展大数据导论7.1.1 社交媒体的定义社交媒体(Social Media)指互联网上基于用户关

6、系的内容生产与交换平台。社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台,现阶段主要包括Fecebook、twitter、微博、微信、博客、论坛、等等。社交媒体在互联网的沃土上蓬勃发展,爆发出令人眩目的能量,其传播的信息已成为人们浏览互联网的重要内容,不仅制造了人们社交生活中争相讨论的一个又一个热门话题,还吸引传统媒体争相跟进。表1 社交媒体的发展SOCIAL MEDIA社交媒体社交媒体的定义社交媒体的发展时间发展历程社交媒体1971年ARPA(高级研究项目署)项目的科学家发出世界第一封电子邮件,使用“”区分用户名与地址。1987年9月20日中国第一封电子邮件由“德国互联网之父

7、”维纳措恩与王运丰在北京的计算机应用技术研究所成功发送到德国卡尔斯鲁厄大学。1980年新闻组诞生,简单地说就是一个基于网络的计算机组合,这些计算机被称为新闻服务器,不同的用户通过一些软件可连接到新闻服务器上,阅读其他人的消息并可以参与讨论。Usenet是分布式互联网交流系统,数以千计的人在上面讨论科技、文学、音乐和体育赛事等。1991年伯纳斯李经过多年实践和改进,提议采用一个新的信息发布协议,最终成就了以“超链接”为特征的万维网World Wide Web。1994年世界上第一个个人博客:斯沃斯莫尔学院学生Justin Hall建立自己的个人站点“Justins Links from the

8、Underground”,与外部网络开始互联。Justin Hall坚持更新自己的博客坚持了11年,现在被公认为“个人博客元勋”。1995年C成立,旨在帮助曾经的幼儿园同学、小学同学、初中同学、高中同学、大学同学重新取得联系。1996年早期搜索引擎A上线,它允许人们用自然语言提问,而非关键词(比如:“今天上映什么电影”,而不是“10月23日电影上映”)。大数据导论7.1.2 社交媒体的发展表1 社交媒体的发展社交媒体社交媒体的定义社交媒体的发展时间发展历程社交媒体1997年美国在线实时交流工具也称在线即时通讯软件AIM(AOL Instant Messenger)上线;1998年在线日记社区

9、Open Diary上线,它允许人们即使不懂HTML知识也可以发布公开或私密日记。更重要的是,它首次实现人们可以在别人的日志里进行评论回复。1999年博客工具Blogger出现;全球科技公司之间的专利站捧红的FOSS Patent就是用Blogger建的网站。2000年Jimmy Wales 和 Larry Sanger 共同成立 Wikipedia,这是全球首个开源、在线、协作而成的百科全书,由来自世界各地的志愿者合作编辑而成,整个计划总共收录了超过2,200万篇条目,而其中又以英语维基百科以超过404万篇条目的数字排名第一。2001年M 网站成立,专注于线下交友。网站的创建者是 Scott

10、 Heiferman,2001年“911”事件以后,他成立了 M 是一个兴趣交友网站,鼓励人们走出各自孤立的家门,去与志趣相投者交友、聊天。1997年美国在线实时交流工具也称在线即时通讯软件AIM(AOL Instant Messenger)上线;大数据导论7.1.2 社交媒体的发展表1 社交媒体的发展社交媒体社交媒体的定义社交媒体的发展时间发展历程社交媒体2003年面向青少年和青年群体的MySpace上线,它再一次刷新了社交网络的成长速度:一个月注册量突破 100 万。还有WordPress,它由全球各地的几百名网友通过在线协作创建,目前在全球已经拥有数千万用户截止2011年12月,发布一年

11、的 WordPress 3.0 获得了 6500 万次下载。2004年Facebook成立,根据7月Facebook上市后的首份财报Facebook目前每月有9.55亿用户活跃用户(MAU),每月移动平台活跃用户数有5.43亿。2005年YouTube成立,它在成立后迅速被Google相中,2006年从Google那里得到的收购价是16.5亿美元。2006年Twitter成立,由于它内容限制在140字以内,迅速成为方便的交流工具和强大的自媒体平台;成立的还有 Spotify,现在是社交音乐分享型应用的典型,拥有1500万MAU和400万付费用户。2007年Tumblr成立于2007年,是目前全

12、球最大的网站,也是轻博客网站的始祖。一种介于传统博客和微博之间的全新媒体形态,既注重表达,又注重社交,而且注重个性化设置,成为当前最受年轻人欢迎的新媒体之一。2008年Groupon上线,是国际上最大的团购网站,最早成立于2008年11月,以网友为经营卖点。其独特之处在于:每天只推一款折扣产品、每人每天限拍一次、折扣品一定是服务类型的、服务有地域性、线下销售团队规模远超线上团队。大数据导论7.1.2 社交媒体的发展SOCIAL MEDIA表1 社交媒体的发展社交媒体社交媒体的定义社交媒体的发展时间发展历程社交媒体2009年Foursquare 上线,以“签到”(check-in)组建基于地理位

13、置的社交网络,Foursquare 成立于纽约市,每年 4 月 16 日在纽约拥有一个独特的“4SQ 日”。2010年2011年Google最成功的产品Gmail推出微博客和沟通工具 Google Buzz 上线,但这是一个失败的产品,2011 年12 月 15 日彻底被 Google 终结。2011 年,Google Buzz 的继承者 Google+上线。2012年Pinterest 呈现爆发式增长,在 2011 年底被 TechCrunch 评为“年度最佳创业公司”,它是目前网站史上最快达到 1000 万独立访客的网站2013年腾讯微信发展速度惊人:用户数从0到1亿,历经14个月;从1亿

14、到2亿,用了半年;从2亿到3亿,只花了大约4个月;截至2013年10月,微信全球用户数已经超过6亿。2014年VKontakte是俄罗斯及邻国的主要社交网络,2014年Pinterest功能更强大了,增加了诸如Place Pins(结合Foursquare和Mapbox的地理位置服务)和Rich Pins(提供更丰富的图片信息),以促进Pinterest服务变现。2015年2016年八大社交媒体:微信、微博、陌陌、知乎、Facebook、Twitter、Snapchat以及Instagram在用户增长和商业变现上进行了不断努力尝试大数据导论7.1.2 社交媒体的发展社交媒体社交媒体的定义社交媒

15、体的发展大数据导论你常用的社交媒体有哪些?对你的生活有什么影响?社交媒体大数据的分析与挖掘大数据导论7.2大数据导论甘肃“问题隧道”网络传播分析 围绕关键词“问题隧道|16亿扶贫路|考勒隧道|折达公路|(甘肃+(质量问题|整改|曝光|刷涂料|偷工减料)+隧道)”,对2018/04/01 00:002018/04/09 23:59期间,互联网上采集到的179457条信息进行了深入分析。全网声量最高峰出现在2018/04/02 00:00:00,共产生108555篇相关讯息;事件源头于2018/04/01 00:48分发布在微信上,题名为:怒!钢筋双层变单层,“整改”只是刷涂料,.。后续报道主要来

16、源于新浪微博、微信、人民政协报、机电之家、搜狐网等几大站点。总体来说,整个事件的发展趋势较为突出。大数据导论事件走势大数据导论网站统计大数据导论数据统计大数据导论传播途径大数据导论关键词云大数据导论新闻观点分析大数据导论微博观点分析大数据导论论坛观点分析大数据导论舆情总结 综上所述,在甘肃“问题隧道”事件/话题中,u 媒体主流报道为国家投资近16亿的甘肃扶贫路u 网民主流意见为我们村的公路是年年修年年坏啊 应深入挖掘网民意见和情感倾向,识别事件传播过程中的意见领袖和主要信息来源,预测或追踪舆论走向,以便对不良舆论进行疏导用户为中心的数据关系为中心的数据内容为中心的数据大数据导论7.2.1 基于

17、用户的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析 在线社交网络可看做异构信息网络,其中的信息通常包括时间、地点、人物、事件等,而用户往往同时存在于多个不同的社交网络中。由于异构的特点,导致同一个人在不同的网络中会呈现一定的差异,如何在此种情况下识别这个人的身份成为近年来异构社交网络研究的一个热点。用户识别大数据导论7.2.1 基于用户的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析 社群是指用户在某段时间内互动形成的具有稳定群体结构、一致行为特征和统一意识形态的个体和社会关系的集合。社群内部

18、用户关系强度强,聚合强度大,而社群之间用户关系强度弱,离散程度大。社群挖掘的目的在于从用户的行为、群体结构和关系模式中发现潜在的规律。社群结构按照用户社会关系和对文本内容的兴趣度划分为两种:社群发现1、以用户个体为中心的社群结构2、以话题为中心的社群结构大数据导论7.2.1 基于用户的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析表2 用户关系强度计算度量方法度量指标网络结构相似度计算两节点的邻居重叠度依赖边介数经过当前边的最短路径的总和依赖影响力图弧的重数依赖隐含变量模型描述内容的相似度与用户间的交互关系依赖时间模型指数衰减模型依赖大数据导论

19、7.2.2 基于关系的大数据分析 用户关系强度的计算源于实际数据的传播模型,它们采用信息本身特性、用户关系、微博网络外部因素等多方面对信息传播进程建模,预测信息传播动态以及用户个体的传播行为。从整体出发,预测信息的扩散速度、范围、广度和深度等;或是从个体出发,预测用户个体传播某条信息的概率,进而研究整个社会网络的信息传播情况。信息传播社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析影响力最大化 影响力计算是针对单个用户节点而言的,而影响力最大化问题涉及网络中的多个用户,考量集体的联合影响力,它利用信息传播模型聚集用户,使用户集合可以最大程度地影响其他用户,

20、从而使信息最大程度地扩散。传统影响力最大化问题新型影响力最大化问题大数据导论7.2.2 基于关系的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析 收集到的原始文本组织松散,直接用于文本分析会影响分析的准确性。预处理就是采用特征抽取和特征选择的方法将文档组织成固定数目的预定义类别。特征提取与选择大数据导论7.2.2 基于关系的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析 事件是指在特定的时间和地点下发生的有前因和后果的事情,而话题是指由所有直接相关事件构成的大事件。话题挖掘的主要任务是话题检测与

21、跟踪,采用历史事件追溯检测和在线新事件自动识别方法,对此已有大量研究,尤其针对完整新闻报导和博客的话题检测已取得了一些成绩。然而,由于微博格式复杂,内容简短,用语不规范等特点,TDT技术不能简单应用到微博。话题事件挖掘话题模型话题摘要话题的检测与跟踪多媒体数据分析地理位置信息分析社交媒体的动态性和时效性分析社交媒体大数据中存在的深层语义挖掘大数据导论7.2.3 基于内容的大数据分析社交媒体大数据的分析与挖掘基于用户的大数据分析基于关系的大数据分析基于内容的大数据分析 情感分析也叫意见挖掘,旨在依据意见目标从语料中识别和提取特定主题的属性、要素和隐含的主观信息。意见目标通常称作实体,可以是人物、

22、事件或话题,与要素和子要素相关联,每个要素都有其自己的一套情感属性。微博情感分析可以提取不同领域的公众情绪和意见,可以确定民意调查的影响,有效解释和描述政治事件,预测股票趋势等。情感分析大数据导论7.2.3 基于内容的大数据分析社交媒体大数据的未来挑战大数据导论7.3社交媒体大数据的未来挑战大数据导论265173特征提取与选择影响力计算微博新闻挖掘信息传播效应刻画社会媒体大数据融合跨语言情感分析挑战84数据合理化使用信息茧房社交媒体大数据的未来挑战大数据导论1信息传播效应刻画社交媒体网络中信息传播效应的刻画是一个复杂的问题,它受到信息自身因素、社会因素和网络外部因素的综合影响,并且用户本身的属

23、性与信息本身的属性也相互影响,准确全面地反映信息传播效应已成为关键。这一问题的解决还依赖于影响力、用户关系强度和传播规律。社交媒体大数据的未来挑战大数据导论2影响力计算基于关系分析的一个具有重要商业价值的研究方向是影响力计算和信息传播的最大化问题。其中信息传播的最大化问题的全局最优化被证明是NP难问题,对于大规模的社会网络,目前只能采用一些优化算法获取近似的较优解,并且对于影响力最大化问题目前的最佳解决算法也只处理了百万级规模的社会网络。而目前微博网络节过亿,如何在微博网络中快速计算出固定数量的最有影响力的节点集合还有待进一步探究。社交媒体大数据的未来挑战大数据导论3特征提取与选择针对传统数据

24、的特征提取与选择方法已有很多,但是不利于处理低频词和发现新特征,而这种情况在微博数据中大量存在。与词频模型相比,序列模式挖掘保持了词的顺序并可以捕捉潜在的语义,更能解释话题。但是采用模式挖掘的两大挑战是:大量冗余模式的产生和长模式的低支持度问题。社交媒体大数据的未来挑战大数据导论4微博新闻挖掘 如何在线实时处理这种社会化的短文本流?如何识别新闻话题?如何实时检测新闻事件?如何判断事件的连续性?如何挖掘这种动态的关联演化性?如何从海量博文中提取有意义且易理解的微博话题?挖掘到的新闻以什么形式呈现?如何设计针对微博的动态新闻集成系统?社交媒体大数据的未来挑战大数据导论5社会媒体大数据融合随着社会网

25、络服务的发展,用户在社交互动中加入了多种服务,并收集了大量的信息。因此,如何整合分布式社会网络,进而对各种社会媒体数据源进行融合,为知识的挖掘提供更好的数据资源已经成为亟待解决的问题。社交媒体大数据的未来挑战大数据导论6跨语言情感分析挖掘情感是为了体现商业价值,目前大数据向跨语言融合迈进,相应的情感分析也向跨语言情感分析发展。但是,语言的不同体现在语言特征、要素分布的不同,语言间关联的障碍使得跨语言情感分析成为更大的挑战,这是目前亟待解决的问题。社交媒体大数据的未来挑战大数据导论7信息茧房信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的

26、现象。随着各个社交媒体的推荐算法的作用之下,用户们关注和接受的信息领域逐渐趋近于自己所偏好的,看到的信息大多是自己所认同的,信息茧房问题逐渐出现,如何解决用户面临的信息茧房问题也逐渐成为必须要解决的问题社交媒体大数据的未来挑战大数据导论8数据合理化应用社交媒体商家会获取大量用户的基本信息,商家在获取这些信息后,很可能会涉及到用户的个人隐私问题,该如何合理利用这些数据,在保证用户基本信息不会被滥用的同时,依然保持对用户的有效推荐,保证社交平台的正常盈利成为必须要解决的问题社交媒体下大数据信息安全问题大数据导论7.4社交媒体下大数据信息安全问题社交媒体导致的信息风险类型和形成原因社交媒体的信息风险

27、治理方案社交媒体平台运营商引发的信息风险社交媒体侵犯个人隐私造成的信息风险社交媒体中用户的位置信息泄露造成的信息风险社交媒体导致的信息风险类型和形成原因大数据导论7.4.1 社交媒体导致的信息风险类型和形成原因社交媒体下大数据信息安全问题社交媒体导致的信息风险类型和形成原因社交媒体的信息风险治理方案大数据导论7.4.1 社交媒体导致的信息风险类型和形成原因流行的“我的小学生证件照”、“未来的宝宝长啥样”、“结婚证生成器”等等,都是通过上传正面照片生成结果,然后分享到朋友圈大肆传播。殊不知,简单的上传照片也会造成个人信息泄露,为个人财产安全带来潜在风险。社交媒体下大数据信息安全问题社交媒体导致的

28、信息风险类型和形成原因社交媒体的信息风险治理方案社交媒体导致的信息风险类型和形成原因大数据导论7.4.1 社交媒体导致的信息风险类型和形成原因美国社交媒体facebook被舆论推上了风口浪尖。一家数据分析企业未经授权获取了facebook多达50005000万用户的信息,用于设计软件,以预测并影响选民投票,这是facebook创建以来最大的用户数据泄露事件之一。事件一出,多名facebook高管大举抛售股份,用户对facebook的信任也降到了冰点。Facebook作为全球最大的网络社交平台,此次事件牵涉范围甚广,已经引起了社会各界的关注。也因此Facebook收到多方的指责。有媒体谴责,Facebook虽然察觉此事之后有所动作,但并没有及时向用戶发出警告;用户谴责Facebook在用户信息保护方面管理松懈。而美国和英国立法者要求Facebook解释,如何在没有提醒用户的情况下,搜集5000多万用户的私人信息。加强立法和行业规章提升社交媒体用户的信息风险意识提高社交媒体运营商的信息安全管理水平社交媒体的信息风险治理方案大数据导论社交媒体下大数据信息安全问题社交媒体导致的信息风险类型和形成原因社交媒体的信息风险治理方案7.4.2 社交媒体的信息风险治理方案

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第7章 大数据与社交媒体的融合.pptx)为本站会员(无敌的果实)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|