1、大数据技术及应用探索CNAO审计署数据司 目录Contents1审计大数据价值(3个引例)2从数据分析走向大数据分析3创新审计技术方法4践行数字化审计方式01审计大数据的价值央企供应商分析 全国土地矿产资源分析全国小微企业分析n 利用分词技术,对十九大报告等76篇习近平同志重要讲话文本进行深度学习n 初步定量识别出较有代表性的53组高频词高频词坚决维护习近平总书记在党中央和全党的核心地位坚决维护党中央权威和集中统一领导围绕“五位一体”总体布局 -从八个方面开展数据分析“四化四化”一手抓发现问题-重大违法违纪问题的重点领域和关键环节1重大物资采购和招标投标2土地和矿产资源交易3贷款发放和证券交易
2、4国有资产和股权转让5财政资金分配6重大投资决策和项目审批坚持问题导向一手抓促进体制机制完善,促进政策完善着力维护经济安全密切关注经济社会运行中的薄弱环节,关注财政、政府债务、金融、能源、矿产资源、水资源、粮食、生态环保等方面的风险隐患,防范系统性和区域性风险经济安全政策落实深化改革着力推动政策落实要围绕国家重大政策措施和宏观调控部署的贯彻落实,始终关注重大项目落地、重点资金保障、重大政策落实等情况,促进去产能、去库存、去杠杆、降成本、补短板,促进经济结构转型升级,推动协调发展完善着力推动深化改革全面深化改革的重大部署,始终关注改革部署的推进情况和创新探索,关注发展中的新情况、新问题,关注体制
3、性机制性问题,积极提出解决突出问题和推动长远发展的建议,促进形成有利于创新的体制机制,推动创新发展。引例1 -供应商分析 数据资源:企业名单 一家企业的名字 国税增值税专用发票数据 购货方、销售方、发票金额、发票税额、开票日期 足不出户,掌握全国主要商品流通的情况 工商登记数据 登记状态、登记时间、投资人、工商变更 足不出户,掌握全国企业设立的情况 分析方案:递归提取该企业下属子公司名单 提取供应商名录 目标企业及子公司作为购货方的记录汇总 供应商实力分析 供应商异常特征检测供应商异常特征检测 依存度分析 集群分析集群分析引例1 -供应商分析民营企业 工商数据:企业性质注册资本金小于100万元
4、 工商数据:注册资本及实缴资本成立时间较短 工商数据:成立时间 特别是成立不到一年即获得大量订单的企业已注销 工商数据:企业状态 合同签订时实力值得怀疑等等引例1 -供应商分析供货来源异常复杂 购货来源各种公司,疑似采购掮客突现的中间环节 在老供应商之间插进的第三者循环开票 贸易背景虚假的融资行为(假贸易,真融资)贸易背景虚假的融资行为(假贸易,真融资)利随人走(供应规模激增)等等供应商异常特征检测离散点检测-供应规模激增异常离散点检测-可视化结果依存度分析-集中数据分析的优势 依存度=某供应商向被审计单位供货金额/同一时间该供应商全部供货金额 行业垄断程度越高,供应商平均依存度越高 越高的依
5、存度,意味着供应商通过关系人获取订单的可能性越大、被审计单位对供应商的话语权越大、索贿的可能性越大依存度分析集群分析集群分析利用全国工商数据-上追供应商三级股东,形成投资关系网,利用社会网络分析技术识别出供应商集群优点:从群体的视角看供应商 不遗漏依存度低的供应商 可视化大数据 更好的洞察力该例子的特点 没有内部数据的大要案分析 国税、工商、社保、个税、户籍等外部数据 利用大数据分析技术增强信息洞察力 异常点检测 可视化 集群分析 一家/多家集团企业,一次性全覆盖引例2:谁控制着中国的土地矿产资源?引例3:政策跟踪审计 清洗整理国地税、海关、货运、电力、金融、工商等数据,利用企业名称,纳税识别
6、号关联分析,真实反映各企业的运行情况从产业政策、财政政策、金融政策等方面提出建议小微企业大众产业、万众创新-小微企业政策落实情况 梳理小微企业的税收优惠、财政政策,金融政策,明确审计思路第一步:从各省国税、地税系统中提取小微企业名单、小微企业纳税情况,按统一格式生成全国的标准表。“小微企业你还好吗?”第二步:将小微企业名单与财政、海关、电力、货运、银行的数据相关联。根据生成的数据结果,提炼每一类经济数据所代表的小微企业特点,从规模、行业、地域、趋势等多个视角分析小微企业的状况。此外,我们还做过02从数据分析走向大数据分析大数据的基本概念与特征 对大数据分析局限性的认识 大数据分析的发展路径26
7、审计数据分析的发展路径大数据分析阶段数据分析割据阶段大数据+查询分析数据分析割据大数据+大分析大数据+小分析持续发展今天,审计事业发展对审计数据分析工作提出了更高要求拓展大数据技术运用,.大幅提高审计的精准度和时效性;从宏观层面加强大数据关联分析,提高研判宏观经济发展趋势、感知经济社会运行风险、发现违纪违法问题线索的能力。-审计署2016年工作要点目前,审计署已经归集了相当规模的数据信息,但我们推进审计技术方法和手段创新还不够,对数据的深度挖掘、综合分析和运用还很不充分。-刘审,各单位和省级审计机关主要负责人专题研究班五年来,审计方式方法实现新突破。-刘审,全审工作会议,2015.12。审计署
8、办公厅关于进一步提高审计工作质量和效率的几点措施 2017年2月统筹整合数据资源。各业务司、各派出机构要严格落实数据定期采集制度,同时根据年度审计项目需要,及时补充采集有关数据,送数据司统一集中管理。数据司要紧密结合宏观经济形势和社会热点,以维护国家安全、服务宏观决策为重点,组织持续对已收集的各类数据开展跨领域、跨层级、跨系统、多维度的贯通分析,对分析发现的疑点按规定组织核查后,及时向党中央、国务院报送相关情况。各业务司、各派出机构组织实施各类审计中,都要坚持数据先行,组建数据分析组开展数据综合分析,确定审计重点和锁定疑点线索,为编制审计工作方案、实施方案和现场审计提供引领支撑。“四化四化”二
9、、大数据是什么1.VolumeVolume2.VarietyVariety3.value4.VelocityVelocity结构化数据、半结构化数据和非结构化数据非结构化数据的超大规模和增长,占总数据量的8090%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍价值高,价值密度低大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据要求实时获取数据大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量大数据是一种战略资
10、产,是战略资产意味着它是可以产生巨大价值的,而且它的价值要发挥出来还需要新处理模式,这点很重要;然后才是它具有海量的、高速增长的和多样化这些特征。大数据的“大”Normally,big data is scaled by PBEBZBYB.32byteKBMBGB/TBPB/EBZB/YB大数据的“数据”?大数据的大数据的“数据数据”,是非结构化数据与结构数据的融合。,是非结构化数据与结构数据的融合。我们的审计大数据是所有涉及国民经济运行的主要数据,虽然当前我们审计大数据主要基于结构化数据但非结构化文档、互联网网页、社交数据对审计的价值也是毋庸置疑的,甚至将来随着我国物联网行业的发展,来自传感
11、器数据也会成为审计大数据的来源。在审计实践中,其实我们还遇到过结构化数据中的文本信息处理的障碍,比如全国工商数据中的工商变更信息不能结构化,就无法精确掌握企业历史股权变动信息?再比如全国海关数据中的商品规格型号不能结构化,我们也无法精确指向具体报关商品?汽车一直以来就是四个轮子、一个方向盘、两排沙发你和汽车相关的每一个行动都数字化,包括每一次维修、每一次驾驶路线、每一次事故的 录像、每一天汽车关键部件的状态,甚至你的每一个驾驶习惯(如每一次的刹车和加速)都记录在案。车辆保险业:一共分为四种客户,第一种是连续两年没有出车祸的,第二种过去一年没有出车祸,第三种过去一年出了一次车祸,第四种是过去一年
12、出了两次及以上车祸的,就四种类型。通过大数据,我们可能有全新的视角来发现通过大数据,我们可能有全新的视角来发现新的商业机会和重构新的商业模式。新的商业机会和重构新的商业模式。新智慧生物的诞生?新智慧生物的诞生?大数据带来的三个思维转变1、样本=总体在大数据时代,可以分析更多的数据,甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。传统数据时代大数据时代2、容忍混杂性数据如此之多,以至于我们不再执着于追求精确度。3、因果到相关不再热衷于寻找因果关系,而是转而寻找事物之间的相关关系。19 世纪以来,当面临大量数据时,都依赖于采样分析。但是采样分析是信息缺乏和信息流通受限制的模拟数据时
13、代的产物。传统数据处理追求“精确度”,这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。高性能数字技术的发展突破了这种限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节大数据让我们更清楚地看到了样本无法揭示的细节信息。大数据纷繁多样,优劣掺杂,分布广泛。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可,适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。在大
14、数据时代,我们无须再紧盯事物之间的因果关系,不再把分析建立在早已设立的假设的基础之上。而应该寻找事物之间的相关关系,让大数据告诉我们“是什么”而不是“为什么”。当前,审计大数据分析的五个关联大数据审计:对数量巨大、来源分散、格式多样的内外部数据进行采集、存储和综合分析,从而提高审计决策指挥、揭露重大违法违纪问题和揭示宏观经济社会运行风险的能力和效率,是实现审计全覆盖的重要支撑。财政、金融、企业间财务与业务数据间部门纵向各级间单个系统与宏观经济运行系统中央、部门、地方间大数据审计370102030405点击输入本栏的具体文字,简明扼要的说明分项内容,此为概念图解,请根据您的具体内容酌情修改点击输
15、入本栏的具体文字,简明扼要的说明分项内容,此为概念图解,请根据您的具体内容酌情修改点击输入本栏的具体文字,简明扼要的说明分项内容,此为概念图解,请根据您的具体内容酌情修改点击输入本栏的具体文字,简明扼要的说明分项内容,此为概念图解,请根据您的具体内容酌情修改点击输入本栏的具体文字,简明扼要的说明分项内容,此为概念图解,请根据您的具体内容酌情修改cross-levelcross-areacross-ministrycross-businesscross-systemFive Cross Three integration means the fuse of data,analytic and a
16、uditing work.Five Cross means to use big data in the way of cross-level,cross-area,cross-ministry,cross-business,and cross-system.The kernel of our Big Data Auditing can be summarized as Three Integration and Five Cross.审计大数据分析的价值所在 交叉复用 全息可视39大数据自身也有局限,审计需清醒谨慎安全与隐私数据年龄数据年龄因果性与相关性数据的完整性往往老数据具有总体或趋势分
17、析价值,新数据则更具有个体应用价值。因果关系需要人的思考和判断。只看相关性不重因果解释,很可能导致错误甚至危险的结论。大数据的价值恰恰在于广泛的交叉融合,真正的大数据应是建立在共同的标准基础之上,然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个部门能够获取在广度和深度上都足够充分的数据。无论科学技术如何发达,大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差。真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。数据真实性数据真实性数据的代表性数据的代表性数据安全性、合法性要求会限制了大数据的使用和价值发挥,但从社会价值的角度来看,是
18、值得的,也是必须的。03创新审计技术方法审计大数据技术概览 中文文本分析技术(语义理解)社会网络分析技术1、数据获取技术2、数据存储管理技术3、数据挖掘分析技术4、数据可视化技术遥感技术雷达技术物联网技术网络爬虫三、创新审计技术方法 -审计大数据技术概览2、数据存储管理技术存储层:1)数据量不断增加,带来的IO瓶颈;2)数据分布不均匀,存在IO热点。网络层:IO传输带宽不足,无法快速传输大量数据到服务器。服务器层:接收过多数据进行处理,CPU、内存成为瓶颈。传统数据库小型机+UNIX+中高端存储升级本机硬件资源来提升性能结构化数据大数据技术X86 PC Server+本地存储分布式架构结构化、
19、非结构化数据支持BIG DATAEconomicallyVelocityVolumeVariety=三、审计技术方法创新 -审计大数据技术概览HadoopHadoopSparkSparkMPPMPP处理规模处理规模100PB10PB10PB扩展能力扩展能力5千台上千台1,则规则“XY”是有效的强关联规则 如果Lift(XY)=1,则规则“XY”是无效的强关联规则。特别地,如果Lift(XY)=1,则表示X与Y相互独立。最著名的关联规则挖掘算法之APRIORI,FP-growthArules,ArulesvIZ包中的apriori()rules hamburger meat 0.00122013
20、2 0.6315789 18.99565 2 soda,popcorn=salty snack 0.001220132 0.6315789 16.69779 3 flour,baking powder=sugar 0.001016777 0.5555556 16.40807趋同交易关键时刻点的大V账户与这些账户趋同的交易账户分类179种分类学习算法在121个数据集上的性能,发现随机森林和支持向量机算法的准确性最高。TM Techniques:Decision Trees Neural Networks Support Vector Machines Nave Bayes K Nearest N
21、eighbors.常用的包:rpart,party,randomForest,rpartOrdinal,tree,marginTree,maptree,survival决策树:rpart,ctree随机森林:cforest,randomForest回归,Logistic回归,Poisson回归:glm,predict,residuals文本分析 文本语义的特点冬天:能穿多少穿多少;夏天:能穿多少穿多少。剩女产生的原因有两个:一是谁都看不上,二是谁都看不上。地铁里听到一个女孩大概是给男朋友打电话,“我已经到西直门了,你快出来往地铁站走。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就
22、等着吧。”单身狗的来由:原来是喜欢一个人,现在是喜欢一个人。张三背着李四和王五出去了。下雨天留客天留人不留。审计大数据中包含了大量非结构化文本数据,例如被审计单位的会议纪要、预算申报文件、财政指标文、管理制度、网络新闻博客微信等等,传统结构化数据也包含审计重点关注的短文本,例如凭证摘要、项目名称、企业名称、公司地址等。文本分析短语级的语义计算相似短语、相关短语的计算实体、要素间的关联关系挖掘实体的情感分析词语级的聚类分析。例:标签聚类短语级的比对分析等。例:姓名、出生日期、学历、地址、单位名称等篇章级的语义计算同语种、跨语种的相似文本计算(例:文章转载报道、文章消重等)文本自动分类、文本的聚类
23、分析句子、篇章级的情感分析篇章级变异信息的识别与比对(例如:篡改)文本分析的过程文档数据 采集文档数据预处理(关键词抽取,去停用词)文本表示(特征项选取,权重计算)文本相似度分析结果评估及可视化呈现短语级的文本分析-财务摘要R语言的Rwordseg,JiebaR,wordCloud,tmcn包等Rwordseg包,使用rJAVA调用JAVA中文分词工具Ansj来实现分词(Ansj是中科院ictclas中文分司算法的开源 工具),分词较准确。JiebaR包,是“结巴”中文分词(Python)的R语言版本,支持最大概率法,隐式马尔科夫模型,索引模型,混合模型共四种分词模式,同时有词性标注,关键词提
24、取,文本Simhash相似度比较等功能。installDict(“d:R2016zfjg.scel”,dictname=“zfjg”,load=FALSE)政府机关名称词库installDict(“d:R2016zgdx.scel”,dictname=“zgdx”,load=FALSE)中国大学名称词库ntintintiiTTTTTTSim12121),(篇章级的文本分析预算申报文档大数据分析为什么要用到SNA技术?属性数据 VS 关系数据属性:单个行动者的属性 工商:股东,高管 上市公司公告:十大股东,流通股东,控制人 社保:公积金:个税,契税 航空:银行存款,股票关系:行动者系统的属性。实
25、体之间具体的联络内容或实质性关系SNA可为审计做什么?1.谁是谁的背后控制人1万条左右某两家公司的投资链条SNA可为审计做什么?2.谁和谁可能有联系?N=6658K近邻 核心凝聚子群SNA可为审计做什么?3.谁控制中国上市公司?国有上市企业国有企业派系非国有企业派系04践行数字化审计方式现代综合审计模式 一场组织管理改革managementinfrastructuredataBig data auditing is not only the reform in technical level,but more than that,it represents the innovation of
26、the auditing philosophy.Data qualityData safetyHardwaresoftwareReapbenefitsManpowertraining76大力推行现代综合审计模式总体分析发现疑点分散核查系统研究重要事情说三遍:沟通沟通再沟通!现场与非现场审计相结合现场与非现场审计相结合从抽样审计走向有重点、有深度、有步骤、有成效的全覆盖审计从抽样审计走向有重点、有深度、有步骤、有成效的全覆盖审计七个一体化六个转变77推行数字化审计方式需要:明晰职责分工、人力资源、合作沟通、激励考核、冲突解决机制角色职责流程机制人力资源Position数据分析团队,研究团队和延伸
27、团队现行业务司局、特派办Person人才培养机制工作质量积极性激励Process非现场研究人员,分析人员与现场延伸人员之间的分工合作机制沟通反馈机制激励考核机制冲突解决机制数字化数字化审计方式审计方式78Heres the thing about the future,关于未来Every time you look at it,每一次你看着未来It changes because you looked at it.它会发生改变 因为你看着它.And that changes everything else.然后其它事也跟着一起改变了Nicolas CageMovie LinesCNAO谢谢大家,敬请指正!