1、大数据安全与隐私保护大数据安全与隐私保护作者:冯登国作者:冯登国 张敏张敏 李昊李昊中国科学院软件研究所中国科学院软件研究所LOGO大数据安全与隐私保护大数据安全与隐私保护大大数据的现状数据的现状 1大大数据研究概述数据研究概述2大数据带来的安全挑战大数据带来的安全挑战3大数据安全与隐私保护关键技术大数据安全与隐私保护关键技术4大数据服务与信息安全大数据服务与信息安全5小结小结6LOGO一、大一、大数据的现状数据的现状为什么为什么我们要我们要研究研究大数据?大数据?在科学界Nature和Science都推出了大数据专利对其展开探讨,意味着大数据成为云计算之后的信息技术领域的另一个信息产业增长点
2、。当今,社会信息化和网络化的发展导致数据的爆炸式增长,据统计,平均每秒有200万的用户在使用谷歌搜索,各行业也有大量数据在不断产生。缺点:安全与隐私问题是人们公认的关键问题。缺点:安全与隐私问题是人们公认的关键问题。LOGO二、大二、大数据研究概述数据研究概述 大数据大规模高速性多样性人机物特点来源LOGO大数据分析目标大数据分析目标1获得知识与推测趋获得知识与推测趋势势由于大数据包含大由于大数据包含大量原始、真实信息,量原始、真实信息,大数据分析能够有大数据分析能够有效摒弃个体差异,效摒弃个体差异,帮助人们透过现象帮助人们透过现象把握规律。把握规律。2分析掌握个性化特分析掌握个性化特征征企业
3、通过长时间、企业通过长时间、多维度的数据积累,多维度的数据积累,可以分析用户行为可以分析用户行为规律,为用户提供规律,为用户提供更好的个性化产品更好的个性化产品和服务,以及更精和服务,以及更精确的广告推荐。确的广告推荐。3通过分析辨别通过分析辨别真相真相由于网络中信息的由于网络中信息的传递更变便利,所传递更变便利,所以网络虚假信息造以网络虚假信息造成的危害也更大。成的危害也更大。目前人们开始尝试目前人们开始尝试利用大数据进行虚利用大数据进行虚假信息的识别。假信息的识别。LOGO大数据技术框架大数据技术框架数据解释数据解释旨在更好地支旨在更好地支持用户对数据持用户对数据分析结果的使分析结果的使用
4、,涉及的主用,涉及的主要技术为可视要技术为可视化和人机交互。化和人机交互。数据分析数据分析分为三类:计分为三类:计算架构,查询算架构,查询与索引,数据与索引,数据分析和处理。分析和处理。数据采集与预数据采集与预处理处理由于大数据的由于大数据的来源不一,可来源不一,可能存在不同模能存在不同模式的描述,甚式的描述,甚至存在矛盾。至存在矛盾。因此。在数据因此。在数据集成过程中对集成过程中对数据进行清洗,数据进行清洗,以消除相似、以消除相似、重复或不一致重复或不一致的数据是非常的数据是非常必要的。必要的。LOGO三、大数据带来的安全挑战三、大数据带来的安全挑战大数据中的用户隐私保护大数据中的用户隐私保
5、护大数据的可信性大数据的可信性如何实现大数据的访问控制如何实现大数据的访问控制LOGO大数据带来的安全挑战大数据带来的安全挑战用户隐私用户隐私保护保护大数据的大数据的可信性可信性如何实现如何实现大数据访大数据访问控制问控制不仅限于个人不仅限于个人隐私隐私泄漏,还泄漏,还在于基于大数在于基于大数据对人们状态据对人们状态和和行为的预行为的预测测。目前目前用户用户数据数据的的收集、管理收集、管理和使用缺乏监和使用缺乏监管,主要依靠管,主要依靠企业自律企业自律威胁之一威胁之一是伪是伪造或刻意制造造或刻意制造数据,数据,而错误而错误的数据的数据往往会导致往往会导致错错误的误的结论结论。威胁之二是数威胁之
6、二是数据在传播中的据在传播中的逐步失真。逐步失真。(1 1)难以预)难以预设角色,实现设角色,实现角色划分;角色划分;(2 2)难以预)难以预知每个角色的知每个角色的实际权限。实际权限。LOGO四、大数据安全与隐私保护关键技术四、大数据安全与隐私保护关键技术数据发布匿名保护技术数据发布匿名保护技术1社交网络匿名保护技术社交网络匿名保护技术2数据水印技术数据水印技术3数据溯源技术数据溯源技术4角色挖掘技术角色挖掘技术5风险自适应的访问控制风险自适应的访问控制6LOGO数据发布匿名保护技术数据发布匿名保护技术v 数据发布匿名保护技术是对大数据中结构化数据实现隐私保护的核心关键与基本技术手段v 典型
7、例子:K匿名方案 k-匿名技术要求发布的数据中存在 一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私K K匿名方案匿名方案优势优势一定程度上保护一定程度上保护了了数据数据的隐私的隐私,能够,能够很好的解决静态、很好的解决静态、一次发布的数据隐一次发布的数据隐私保护问题私保护问题劣势劣势不能应对数据连续不能应对数据连续多次发布、多次发布、攻击者攻击者从多渠道获得数据从多渠道获得数据的的问题的场景。问题的场景。LOGO社交网络匿名保护技术社交网络匿名保护技术v 社交网络中典型的匿名保护:1、用户标识匿名与属性匿名,在数据发布时隐藏了 用
8、户的标识与属性信息2、用户间关系匿名,在数据发布时隐藏了用户间的关系v 常见社交网络匿名保护1边匿名方案多基于边匿名方案多基于边的增删,用随机边的增删,用随机增删交换便的方法增删交换便的方法有效地实现边匿名有效地实现边匿名不足:匿名边保护不足:匿名边保护不足不足2基于超级节点对图基于超级节点对图结构进行分割和集结构进行分割和集聚操作聚操作不足:牺牲数据的不足:牺牲数据的可用性可用性LOGO数据水印技术数据水印技术v 数据水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用方法,多见于多媒体数据版权保护,也有针对数据库和文本文件的水印方案。v 前提:数据中存在冗余信息或可容忍一定精
9、度的误差v 案例:1、Agrawal等人基于数据库中数值型数据存在误差容忍范围,将少量水印信息嵌入到这些数据中随机选取的最不重要位上。2、Sion等人基于数据集合统计特征,将水印信息嵌入属性数据中,防止攻击者破坏水印LOGOv 数据水印技术应用:强健水印类可用于大数据起源证明,脆弱水印类可证明数据的真实性v 存在的问题:当前方案多基于静态数据集,针对大数据的高速产生与更新的特性考虑不足数据水印技术数据水印技术基于文档结构微调的水印基于文档结构微调的水印基于自然语言的水印基于自然语言的水印基于文本内容的水印基于文本内容的水印文本文本水印水印LOGOv 数据溯源技术目标是帮助人们确定数据仓库中各项
10、数据的来源,也可用于文件的溯源与恢复v 基本方法:标记法,比如通过对数据进行标记来记录数据在数据仓库中的查询与传播历史数据溯源技术数据溯源技术数据溯源与隐私保护之间的平衡数据溯源技术自身的安全性保护面临的挑战LOGO角色挖掘技术角色挖掘技术v 角色挖掘:根据现有“用户-对象”授权情况,设计算法自动实现角色的提取与优化。v 典型工作:以可视化形式,以可视化形式,通过用户权限二通过用户权限二维图排序归并方维图排序归并方式进行角色提取式进行角色提取非形式化:子集枚举以及聚类的方法提取角色基于形式化语义分析、通过层次化挖掘来更准确提取角色LOGO风险自适应的访问控制风险自适应的访问控制v 风险自适应的
11、访问控制是针对在大数据场景中,安全管理员可能缺乏足够的专业知识,无法准确的为用户指定其可以访问的数据的情况。v 案例:基于多级别安全模型的风险自适应访问控制解决方案、基于模糊推理的解决方案等v 难点:在大数据环境中,风险的定义和量化都比以往更加困难。LOGO五、大数据服务与信息安全五、大数据服务与信息安全LOGO基于大数据的威胁发现技术基于大数据的威胁发现技术v 基于大数据,企业可以更主动的发现潜在的安全威胁v 相较于传统技术方案,大数据威胁发现技术有以下优点:1、分析内容的范围更大2、分析内容的时间跨度更长3、攻击威胁的预测性4、对未知威胁的检测LOGO基于大数据的认证技术基于大数据的认证技
12、术v 身份认证:信息系统或网络中确认操作者身份的过程,传统认证技术只要通过用户所知的口令或者持有凭证来鉴别用户v 传统技术面临的问题:1 1、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证2 2、传统认证技术中认证方式越安全往往意味着用户负担越重、传统认证技术中认证方式越安全往往意味着用户负担越重LOGO基于大数据的认证技术基于大数据的认证技术v 基于大数据的认证技术:收集用户行为和设备行为数据,对这些数据分析,获得用户行为和设备行为的特征,进而确定其身份。1 1、攻击者很难模拟、攻击者很难模拟用户行为通过认证用户行为通过认证2
13、2、减小用户负担、减小用户负担3 3、更好的支持各系、更好的支持各系统认证机制的统一统认证机制的统一1 1、初始阶段的认证,、初始阶段的认证,由于缺乏大量数据,由于缺乏大量数据,认证分析不准确认证分析不准确2 2、用户隐私问题、用户隐私问题优点缺点LOGO基于大数据的数据真实性分析基于大数据的数据真实性分析v 基于大数据的数据真实性分析被广泛认为是最为有效的方法v 优势:1、引入大数据分析可以获得更高的识别准确率2、在进行大数据分析时,通过机器学习技术,可以发现更多具有新特征的垃圾信息v 面临的困难:虚假信息的定义、分析模型的构建等LOGO大数据与大数据与“安全安全-即即-服务服务”v 核心问题:如何收集、存储和管理大数据v 对信息安全企业来说,现实的方式是通过某种方式获得大数据服务,结合自己的技术特色,对外提供安全服务v 前景:以底层大数据服务为基础,各个企业之间组成相互依赖、相互支撑的信息安全服务体系,形成信息安全产业界的良好生态环境LOGO六、六、小小结结 大数据带来新的契机的同时也带来了新的安全问题,但它自身也是解决问题的重要手段。论文从大数据的隐私保护、信任、访问控制等角度梳理了大数据安全与隐私保护的相关技术,但当今的研究仍不够充分。技术手段技术手段政策法规政策法规