数据可视化文本数据可视化教学课件.pptx

上传人(卖家):三亚风情 文档编号:3325404 上传时间:2022-08-20 格式:PPTX 页数:54 大小:4.21MB
下载 相关 举报
数据可视化文本数据可视化教学课件.pptx_第1页
第1页 / 共54页
数据可视化文本数据可视化教学课件.pptx_第2页
第2页 / 共54页
数据可视化文本数据可视化教学课件.pptx_第3页
第3页 / 共54页
数据可视化文本数据可视化教学课件.pptx_第4页
第4页 / 共54页
数据可视化文本数据可视化教学课件.pptx_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、2022-8-121数据可视化数据可视化-文本数据可视化2022-8-1222022-8-122文本可视化背景 文本信息爆炸式增长需要高效的阅读方式“一图胜千言”,图形表达信息的优势 标签云技术、信息文本图等文本可视化技术的不断发展2022-8-123目 录文本数据在大数据中的应用及提取文本信息分析文本信息可视化本章小结010203042022-8-1242022-8-124文本数据在大数据中的应用及提取 文本数据在大数据中的应用 文本信息层级 词汇级一连串文本中提取的语义单元 语义单元由一个或多个字符组成的词元,是文本信息的最小单元 文本关键字属词汇级别 语法级基于文本的语言机构对词汇级语义

2、单元进行提取分析语义单元的语法属语法级信息,如词性、单复数语法级信息的提取过程被称作命名实体识别方法 语义级研究文本整体所表达的语义内容信息和语义关系文本的最高层信息2022-8-1252022-8-125文本数据在大数据中的应用及提取 文本数据在大数据中的应用 从数据大、类型多、处理速度快、价值密度低的大数据提取有用信息的重要性 图像和图形在信息表达上的优势和效率 需要从不同层级提取与呈现文本信息 不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算法,语义级用主题抽取算法2022-8-1262022-8-126文本数据在大数据中的应用及提取 文本数据在大数据中的应

3、用 文本可视化流程 文本信息挖掘文本数据的预处理、文本特征的抽取、文本特征的度量 视图绘制图元设计、图元布局 人机交互2022-8-1272022-8-127文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 网络爬虫 网络爬虫又称网络蜘蛛,将互联网比喻成一个蜘蛛网,Spider就是在网上爬的蜘蛛 网络爬虫就是根据网页的地址来寻找网页的,也就是URL 解析网页使用的语言为Python2022-8-1282022-8-128文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 URL一般格式“protocol:/hostname:port/path/;parameters?query#

4、fragment”第一部分:协议protocol,例如百度使用的就是https协议 第二部分:hostname:port,主机名(还有端口号为可选参数,端口号一般默认为80)第三部分:path是主机资源的具体地址,如目录和文件名等 网络爬虫就是根据URL对web信息进行获取的2022-8-1292022-8-129文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 Python爬虫架构 调度器 URL管理器 网页下载器 网页解析器 应用程序2022-8-12102022-8-1210文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 爬虫示例代码:爬虫结果:2022-8-12112

5、022-8-1211文本信息分析 分词技术和词干提取 分词技术和词干提取方法通常用于文本数据的预处理 分词:将一段文字划分为多个词项,剔除停词,从文中提取有意义的词项 词干提取:去除词缀得到词根,得到单词最一般写法的技术 词干提取避免了同一个词的不同表现形式对文本分析的干扰2022-8-12122022-8-1212文本信息分析 分词技术和词干提取 以马汀路德金的“I have a dream”演讲的一段为例:I have a dream that one day this nation will rise up and live out the true meaning of its cre

6、ed:”We hold these truths to be self-evident,that all men are created equal.“剔除a,the,that等停词,经过分词后,这段话可提取出20个词项:I,have,dream,one,day,nation,rise,up,live,out,true,meaning,creed,hold,truths,self-evident,all,men,created,equal 词干提取过程又会将“men”和“truths”分别还原为“man”和“truth”2022-8-12132022-8-1213文本信息分析 向量空间模型 词

7、袋模型将某一文本看作是一个词集合,忽略语法、词序 文本中每个词相互独立,对其它词不依赖 将一个文档的内容总结为在由关键词组成的集合上的加权分布向量 在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的 值等于单词在文本中出现的统计信息,单词间没有顺序关系2022-8-12142022-8-1214文本信息分析向量空间模型 词袋模型以Charles Dickens的双城记书中的一段文字为例:“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of f

8、oolishness.”这段文字共包含24个单词,在分词以后变为10个单词;经词干提取后,这段文字可表达为一个词频向量2022-8-12152022-8-1215文本信息分析 向量空间模型 TF-IDF 一种用于资讯检索与资讯探勘的常用加权技术;用以评估一个单词或字对于某文档集或语料库中的其中一份文档的重要程度;核心思想:字词的重要性随着其在文档出现的次数成正相关增加,同时会随着出现的频率而负相关下降 定义 :表示词w对于某个文档的相对重要性;是词w在文档中出现的次数;文档集中包含w的文档数目,N代表文档总数2022-8-12162022-8-1216文本信息分析 主题抽取 主题模型,即文本的

9、主题描述 文本主题的抽取算法大致分两类:基于矩阵分解的非概率模型词项-文档矩阵投影到K维空间中 每个维度代表一个主题 在主题空间中,每个文档由K个主题的线性组合来表示 隐含语义检索是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解 词项-文档矩阵基于贝叶斯的概率模型主题被当成多个词项的概率分布 文档可以理解成由多个主题的组合而产生的 概率隐含语义检索是广泛使用的方法 2022-8-12172022-8-1217文本信息可视化 文本数据大体上可分为:单文本文档集合时序文本数据 以上对应的文本可视化分别为:文本内容的可视化文本关系的可视化文本多层面信息的可视化2022-8-121820

10、22-8-1218文本信息可视化文本内容可视化 基于关键词的文本内容可视化 标签云(Tag Cloud)最简单、最常用的关键词可视化技术将抽取的关键词按照一定规律整齐美观地排列在屏幕上利用颜色和大小反映关键词在文本中分布的差异将经过颜色映射后的字词按照其在文本中原有的位置或某种布局算法放置2022-8-12192022-8-1219文本信息可视化文本内容可视化 基于关键词的文本内容可视化 标签云文本可视化示例2022-8-12202022-8-1220文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档散(DocuBurst)采用径向布局来从词汇间语义层次角度可视总结文档的内容;外圈

11、的词汇是里圈词的下义词;圆心处的关键词是文章所涉及内容的最上层概述;每个词的辐射范围覆盖其所有的下义词2022-8-12212022-8-1221文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档散(DocuBurst)如右图文档散可视化文本示例:外层的词是内层词的下义词颜色饱和度的深浅用来体现词频的高低2022-8-12222022-8-1222文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档卡片(Document Cards)采用文章的关键图片和关键词信息表达文本内容,并将其布局在一张卡片中;便于用户在不同尺寸设备中查看和对比每个文档信息2022-8-122320

12、22-8-1223文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档卡片(Document Cards)如右图示例,采用文档卡片法对一篇InfoVis论文的的可视化结果关键图片采用智能算法抽取图片并根据颜色直方图进行分类,从每一类图片中选取的代表性图片2022-8-12242022-8-1224文本信息可视化文本内容可视化 时序性的文本可视化 主题河流 采用河流作为可视原语来编码文档集合中的主题信息 将主题隐喻为时间上不断延续的河流 提供宏观的主题演化结果 辅助用户观察主题的产生、变化和消失等2022-8-12252022-8-1225文本信息可视化文本内容可视化 时序性的文本可视

13、化 主题河流局限性 只能将每个主题在每个时间刻度上概括为一个简单数值 一个简单的度量数值不能完整描述主题的细节,如主题内容 避免以上局限性,衍生出TIARA系统2022-8-12262022-8-1226文本信息可视化文本内容可视化 时序性的文本可视化 TIARA 改进布局算法 在可视化中加入能够帮助用户理解文本主题的关键词信息 为每个文本主题在每个时间点上提取不同关键词 将关键词排布在相应色带上的相应位置 根据词的大小表示关键词在该时刻出现的频率2022-8-12272022-8-1227文本信息可视化文本内容可视化 时序性的文本可视化 TIARA可视示例 TIARA将标签云技术和主题流相结

14、合 描述文本主题在内容上随时间推进而发生的变化2022-8-12282022-8-1228文本信息可视化文本内容可视化 时序性的文本可视化 StoryFlow 用来表示电影或者小说里的剧情线或者时间线 通过层次渲染的方式来生成一个StoryLine布局2022-8-12292022-8-1229文本信息可视化文本内容可视化 时序性的文本可视化 StoryFlow可视示例 如图是某部电影的StoryFlow的文本可视表达 横轴表示时间,每条线代表一个人物 当两个人在剧情中有某种联系的时候,就会在图中相交 StoryFlow允许用户实时交互,包括捆绑操作、删除、移动以及直线化等2022-8-123

15、02022-8-1230文本信息可视化文本内容可视化 文本特征的分布模式可视化 文本弧(TextArc)文本弧方法用于可视化某文档中的词频和词的分布情况文本弧示例图2022-8-12312022-8-1231文本信息可视化文本内容可视化 文本特征的分布模式可视化 文本弧示例图解释:整篇文档用一条螺线来表示,螺线开头是文章的首句,末尾是文章的尾句 文档的句子按照文字的组织顺序有序布局在螺线上 文档中出现的单词填充在画布上,字的大小和颜色深度代表对应的词频 单词出现的位置和频率决定了单词在画布中的位置 靠近画布中心的词出现比较频繁,局部频繁出现的单词则靠近其相应的螺线区域 鼠标单击含所选单词,会绿

16、色高亮表示2022-8-12322022-8-1232文本信息可视化文本内容可视化文本特征的分布模式可视化 文献指纹(Literature Fingerprinting)帮助用户了解某一特征在全文中的分布规律 采用一系列像素图(文献指纹特征)表达整个文本中的分布 可呈现特征的全局分布情况2022-8-12332022-8-1233文本信息可视化文本内容可视化文本特征的分布模式可视化 文献指纹(Literature Fingerprinting)示例2022-8-12342022-8-1234文本信息可视化文本内容可视化文本特征的分布模式可视化 文献指纹示例说明:文本的度量特征是句子的平均长度

17、每一个像素块代表一段文本 一组像素块就代表一本书的“句子平均长度指纹”,其颜色代表文本特征 能直观地看出不同作者的写作风格2022-8-12352022-8-1235文本信息可视化文本内容可视化文本特征的分布模式可视化 文本特征透镜(Featurs Lens)用于可视化文本特征在一个文档集中不同粒度的分布情况 可视化不同层级的文本特征分布 既可从文本集合的高度概括性角度查看文本特征的分布 也可查看文本特征在底层文本中的分布 采用直方图度量频率分布情况,并用三个图来展示统计结果2022-8-12362022-8-1236文本信息可视化文本内容可视化文本特征的分布模式可视化 文本特征透镜示例202

18、2-8-12372022-8-1237文本信息可视化文本关系可视化基于图的文本关系可视化 单词树(Word Tree)从句法层面可视表达文本词汇的前缀关系 利用树型结构来可视化总结文本的句子 树的根节点是用户感兴趣的一个词 树的子节点是原文中搭配在父节点后面的词或短语 字体大小反映词或短语在文中出现的频率2022-8-12382022-8-1238文本信息可视化文本关系可视化基于图的文本关系可视化 单词树示例采用单词树方法可视化表达“I have a dream”演讲中有关单词“I”的所有句子2022-8-12392022-8-1239文本信息可视化文本关系可视化基于图的文本关系可视化 短语网

19、络(Phrase Nets)采用节点-链接图展示无结构文本中语义单元彼此间的关系 节点代表语义单元 边代表用户指定的关系 箭头指示关系的有向性 边的宽度指示这对短语关系在文本中出现的频率2022-8-12402022-8-1240文本信息可视化文本关系可视化基于图的文本关系可视化 短语网络示例采用短语网络可视表达某小说中的“*the*”关系2022-8-12412022-8-1241文本信息可视化文本关系可视化基于图的文本关系可视化 新闻地图(NewsMap)树图方法也可用于刻画文本间的相似性 新闻地图采用树图组织类型相近的新闻2022-8-12422022-8-1242文本信息可视化文本关系

20、可视化文档集合关系可视化 星系视图(Galaxy View)采用仿生的方法可视表达文档间的相似性 通过投影将所有文档按照主题相似性投影为二维平面的点集 点之间的二维距离与其主题相似性成正比2022-8-12432022-8-1243文本信息可视化文本关系可视化文档集合关系可视化 星系视图示例 越密集的点就代表这一类主题的文档越多 多个点簇代表文档集合涉及的多个主题内容2022-8-12442022-8-1244文本信息可视化文本关系可视化文档集合关系可视化 主题地貌(ThemeScape)对星系视图的改进 在投影基础上采用等高线方式可视表达文档集合中相似文档的分布情况 文档越相似,则点分布越密

21、集,从而等高线越紧密,颜色越显著 山峰直观简洁地可视化文档集合中涉及的中心主题2022-8-12452022-8-1245文本信息可视化文本关系可视化文档集合关系可视化 主题地貌可视示例2022-8-12462022-8-1246文本信息可视化文本关系可视化文档集合关系可视化 基于范例的大文本集合投影 先少量投影文本到二维空间,再根据用户选取的样例,选择性地将相关的文本进行二维空间的投影2022-8-12472022-8-1247文本信息可视化文本关系可视化文档集合关系可视化 基于范例的大文本集合投影 上页图(a)所有文本全部投影在二维空间中的结果 图(b)显示每类文本中代表性文档的二维投影

22、图(c)在(b)中用矩形框选中的样例文本的投影结果2022-8-12482022-8-1248文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 ContexTour 可视化文档集合所涉及的多个层面的内容和各个层面间的关系 以学术文章为例,即会议、作者和关键词这三个方面 在数据分析阶段从语义分析论文在每个文本信息层面上的内容聚类结果 轮廓线用于刻画论文的聚集情况2022-8-12492022-8-1249文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 ContexTour用多个视图揭示“会议-作者-主题”之间的关联2022-8-12502022-8-1250文本信息可视化文

23、本多层面信息的可视化文本多层面信息的可视化 FaceAtlas 计混合了节点-链接图和气泡集两类视图,用来表达文本各层面信息的内外部联系 从文本信息的内容和关系角度出发来分析文本多层面的信息 采用圆圈可视编码相关实体编码信息,按照文档的归属布局在空间中,位置较近的属于同一类别实体 经核密度估计而获取的轮廓线展示了每个实体的类别信息,每种颜色代表一个层面的实体信息2022-8-12512022-8-1251文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 FaceAtlas示例 基于某医疗健康文档,展示了病名、病因、症状、诊断方案等多层面信息,两团分别代表糖尿病1号和糖尿病2号,连线代表它们之间的相似的并发症2022-8-12522022-8-1252文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 平行标签云(Parallel Tag Clouds)结合了平行坐标(在多维数据可视化中有介绍)和标签云视图 平行坐标每一列表示用户所感兴趣的某一层面的文本信息 每一列的标签云表达了该层面的文本内容,连接的折线代表此标签在多个层面的分布2022-8-12532022-8-1253小结 文本内容 文本关系 文本多层面信息展示 文本信息的提取和可视表达2022-8-1254THANKS!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据可视化文本数据可视化教学课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|