综合实战:日志的挖掘与应用课件.pptx

上传人(卖家):晟晟文业 文档编号:5202760 上传时间:2023-02-16 格式:PPTX 页数:30 大小:5.12MB
下载 相关 举报
综合实战:日志的挖掘与应用课件.pptx_第1页
第1页 / 共30页
综合实战:日志的挖掘与应用课件.pptx_第2页
第2页 / 共30页
综合实战:日志的挖掘与应用课件.pptx_第3页
第3页 / 共30页
综合实战:日志的挖掘与应用课件.pptx_第4页
第4页 / 共30页
综合实战:日志的挖掘与应用课件.pptx_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用习题5.1 日志概念第五章 综合实战:日志的挖掘与应用东方:每天记录。荀子.强国:“王者之功名,不可胜日志也。”杨谅注:“日记识其政事。”周礼注:志,古文识;识,记也。”西方:犹日记。柯岩 奇异的书简船长:“贝汉廷,这位在他的航海日志上没有误过一天航期的船长这时却毫不迟疑地答应了。”5.1 日志概念第五章 综合实战:日志的挖掘与应用所谓日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。百度百科日志数据的核心就是日志消息或者日志。日志消息就是计算机

2、系统、设备、软件等在某种刺激下反应生成的东西.日志管理与分析权威指南5.1 日志概念第五章 综合实战:日志的挖掘与应用入侵检测主机日志(不同于NIDS日志)可用于入侵检测分析;资源管理日志记录系统运行状态、软硬件状态、性能容量等资源使用情况信息;故障排除日志可用于还原故障现场、梳理故障条例、分析故障根源和系统调试等;取证取证是在事件发生后重建“发生了什么”的情景过程;审计日志可用于验证系统或过程是否如预期般运行的过程;5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题5.2 日志处理第五

3、章 综合实战:日志的挖掘与应用生成日志:操作系统、数据库、中间件、应用、硬件设备等生成日志。传输日志:日志基于某种协议传输。如:SNMP、Syslog协议。存储日志:日志的存储和快速检索分析。分析日志:通过某种组合命令、日志工具或系统分析日志信息,挖掘日志“内涵”。5.2 日志处理第五章 综合实战:日志的挖掘与应用拉:应用程序从来源拉取日志消息。该方式一般基于C-S模型。通常以专有格式保存日志数据。例如:拉取CheckPoint防火墙日志。推:设备或应用向本地磁盘或者网络发出消息,必须配备一个日志收集器接收消息。例如:Syslog、SNMP、Windows事件日志。日志传输是将日志消息从一个地

4、方转移到另一地方的方式。日志记录系统获取日志的方式分为两类:5.2 日志处理第五章 综合实战:日志的挖掘与应用日志格式传输协议知名的日志传输协议:Syslog UDPSyslog TCP加密SyslogSOAP over HTTPSNMP传统文件传输方式,如FPT、SCP等。知名的日志格式:W3C扩展日志文件格式(Extended Log File Format,ELF)Apache访问日志Cisco SDEE/CIDEEArc SightSyslogIDMEF5.2 日志处理第五章 综合实战:日志的挖掘与应用日志的存储和快速检索是日志分析的关键问题。日志文件的文本存储优点:低资源消耗、文本格

5、式可直接读取分析、集成成本低。缺点:面对大数据、复杂分析无法胜任。日志文件的数据库存储优点:可使用SQL直接检索、数据库访问权限健全、集成工具兼容。缺点:较文本存储模式系统资源开销大(CPU、Mem、存储、网络延迟、文件压缩比等)。日志文件的Hadoop存储优点:分布式文件系统(Hadoops Distributed File System,HDFS)将数据存储为有结构的扁平文件。性能远优于文本、数据库存储方式。缺点:日志工具对Hadoop文件系统支持有限。5.2 日志处理第五章 综合实战:日志的挖掘与应用HDFS(Hadoop Distributed File System)Hadoop分布

6、式文件系统是其核心组件。HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。HDFS的读具体步骤为:HDFS的写具体步骤为:5.2 日志处理第五章 综合实战:日志的挖掘与应用HOW?WHAT?WHERE?WHEN?WHO?WHY?日志信息应该包括:WHO(涉及谁?)、WHAT(发生了什么?)、WHERE(发生在哪里?)、WHEN(发生

7、在何时?)、WHY(为什么发生?)、HOW(如何发生?)5.2 日志处理第五章 综合实战:日志的挖掘与应用sedgrepawkgrep(global search regular expression(RE)and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。sed是一款强大的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替

8、换、删除、新增、选取等特定工作类UNIX操作系统内置了多款命令,可以组合用于日常简单分析日志信息。tailtail 命令从指定点开始将 File 参数指定的文件写到标准输出。常与如上命令配置使用。5.2 日志处理第五章 综合实战:日志的挖掘与应用正则表达式概念来自于神经学。Walter PittsWarren Mcculloch在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻

9、辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2.可以通过正则表达式,从字符串中获取我们想要的特定部分。正则表达式的特点是:1.灵活性、逻辑性和功能性非常的强;2.可以迅速地用极简单的方式达到字符串的复杂控制。3.对于刚接触的人来说,比较晦涩难懂。绝大多数日志分析软件均基于正则表达式。5.2 日志处理第五章 综合实战:日志的挖掘与应用时间戳严重等级分隔符日志编码换行符日志轮转日志权限在数据中心里,繁杂各异格式的日志成为了日志分析的噩梦。可规范应用系统日志开发及管理过程,进行精准日志实时监控、提升突发故障排错效率、提供

10、丰富信息用于大数据分析、实现应用系统的安全审计功能。出于不同的目的,业界流传多种日志最佳实践。其中一部分是针对特定行业或日志工具,而大部分最佳实践都是通用的,本处仅讨论普通文本日志,可参照如下指标:时间戳:表示事件发生的时刻严重级别:表示事件的紧急程度分隔符:用于在一个记录中将一个字段与前后相邻字段区分开日志编码:日志文件的编码格式换行符:Unix系统里,每行结尾只有“”,即“n”;Windows系统里面,每行结尾是“”,即“rn”;Mac系统里,每行结尾是“”日志轮转:基于某个时间周期/预设文件大小/综合考虑的日志轮转日志权限:日志文件对不同用户的读/写/执行权限5.5日志分析与挖掘实例第五

11、章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题5.3 日志分析原理及工具第五章 综合实战:日志的挖掘与应用Ross IhakaR语言最初由Ross Ihaka和Robert Gentleman在新西兰奥克兰奥克兰大学统计系设计开发,并于1993年首次对外公开发布。如前所述,R语言是用于统计分析,图形表示和报告的编程语言和软件环境。以下是R语言一些特点:R语言是一种开发良好,简单而有效的编程语言,包括条件,循环,用户定义的递归函数以及输入和输出工具等R语言有一个有效的数据处理和存储工具R语言提供了一组运算符,用于

12、对数组,列表,向量和矩阵进行计算R语言提供了一个大型,一致和集成的数据分析工具集合R语言提供用于数据分析和直接显示在计算机上或在文档中打印的图形化工具R语言是世界上使用最广泛的统计学编程语言。这是数据科学家的第一选择,并由一个充满活力和有才华的贡献者社区支持。R语言现已在大学中教授,也部署在关键业务应用程序中。本教程将向您介绍R语言编程的基础知识,如何使用的步骤,以及一些适当示例。5.3 日志分析原理及工具第五章 综合实战:日志的挖掘与应用告警/报表操作系统存储数据库流量Web行为硬件中间件pgFouine/pgBadgerApache SQL analyserSystem DirectorS

13、kyDBphpTrafficA/WebanalysePiwik/Graphite/webalizer/Open Web AnalyticsTPCLogAnalyzer/Graylog/Octopussy泛用日志分析工具多数监控软件均集成了基于正则表达式的泛用日志监控模块,如ITM、Zabbix等。专用日志分析工具专用工具分析深度、广度、性能等均高于泛用日志分析工具。但集成维护要复杂。5.3 日志分析原理及工具第五章 综合实战:日志的挖掘与应用商用开源Splunk:与众不同在于支持广泛的日志源、审核活动的实时仪表盘、可自定义报告和仪表盘以及有助于将Splunk集成到安全基础设施的API。NetI

14、Q Sentinel:包含异常检车和身份管理,作为处理事故响应和事件取证的额外来源。企业版可组织提供完整的安全信息管理。QRadar:IBM日志管理解决方案。Loggly:云日志提供商。OSSEC:出色的开源日志存储和分析工具。支持syslog,支持无代理,甚至可安装在VMware主机系统上。提供许多最佳实践规则,基于Web的用户界面,是一个轻量级的应用。Scribe:facebook开源的日志收集系统。能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。Chuk

15、wa:非常新的开源项目,属于hadoop系列产品,(用HDFS存储,用mapreduce处理数据),它提供了很多模块以支持hadoop集群日志分析。市面上有大量商用和开源日志分析工具5.3 日志分析原理及工具第五章 综合实战:日志的挖掘与应用 Logstash-agentMessageAccess-logError-logElastic search-ClusterNode1Node2Web-ServerELK由Elasticsearch、Logstash和Kibana三部分组件组成;Elasticsearch是个开源分布式搜索引擎。Logstash是一个完全开源的工具,它可以对你的日志进行收

16、集、分析,并将其存储供以后使用。kibana 是一个开源和免费的工具,它可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助您汇总、分析和搜索重要数据日志。Logstash-index1Logstash-index25.3 日志分析原理及工具第五章 综合实战:日志的挖掘与应用5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题5.4 日志挖掘应用第五章 综合实战:日志的挖掘与应用Splunk 是一个可运行于各种平台的 IT 数据分析、日志分

17、析、业务数据分析软件,支持的作业平台包含Windows,Linux,Solaris,FreeBSD,AIX,MacOS,HP-UX。与 Google Analytics 这一类的 Web 日志分析软件的不同之处在于,Splunk 可以支持任何 IT 设备(服务器、网络设备、应用程序、数据库等)所产生的日志,其对日志进行处理的方式是进行高效索引之后让管理员可以对日志中出现的各种情况进行搜索,并且通过非常好的图形化的方式展现出来。5.4 日志挖掘应用第五章 综合实战:日志的挖掘与应用使用Splunk对web访问日志的分析,可以获取IP地址,耗时,URL数据。5.4 日志挖掘应用第五章 综合实战:日

18、志的挖掘与应用使用Splunk,在应用系统的访问日志中,每次客户端发起的请求都记录了用户ID,具体功能点等信息,通过该日志数据,结合用户ID,机构名称,机构类型,同能点说明等数据,就可以从不同维度,去查询,统计用户的行为特征。5.5日志分析与挖掘实例第五章综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用基于配置管理库的事件大数据挖掘。通过数据挖掘软件,发现事件间的关联关系。有利于智能运维和事件预测。IB

19、M IOAPI设计思想值得借鉴集中管理集中管理没有泛用没有泛用专有专用专有专用将日志事件集中管理。日志集中有利于监控集中管理、CMDB事件丰富和事件关联分析系统搭建。Omnibus是最佳选择如无专用日志分析软件壳使用泛用的。通过泛用日志分析工具配置对应策略可满足日常日志分析需求。如:Splunk、ITM LFA、ELK如有专用日志分析软件就使用专用的。专用日志分析工具在分析准确性、复杂度、效率等方面均高于使用泛用软件。如:iMC、TPC关联挖掘关联挖掘参照前页PPT架构设计思想:专有专用、没有泛用、集中管理、关联挖掘5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.5日志分析与挖掘

20、实例第五章综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题1.使用数据库存储日志,数据库系统提供了丰富的接口,能否方便的开发日志分析前端工具?2.类UNIX系统中Syslog传输日志,日志服务器是使用向客户端“拉”取日志的形式传输日志吗?3.下列哪项不是日志处理生命周期的阶段()A.传输日志B.克隆日志C.存储日志D.分析日志选择题4.下列哪项正则表达式可用于匹配中国邮政编码(注:6位数字)A.1-9d5(?!d)B.1-9d6(?!d)C.d3-d8d4-d7 D.d15|d185.在CentOS操作系统上使用awk、grep等命令匹配/etc/password中含有nologin的行。6.参照本章节本章5.3.3,使用VMware Workstation安装CentOS操作系统搭建ELK服务器端应用,并自行搜索相关技术文档,深入了解使用ELK工具分析日志。习题:感谢聆听

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(综合实战:日志的挖掘与应用课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|