人工智能攻防技术课件.pptx_163文库

资源描述

1、12 人工智能攻防技术112 人工智能攻防技术u 人工智能（Artificial Intelligence，简称 AI），作为计算机学科的一个重要分支，是由 McCarthy于1956年在Dartmouth学会上正式提出，在当前被人们称为世界三大尖端技术之一。u 机器学习是研究如何使用计算机模拟或实现人类的学习活动。它是人工智能中最重要的应用领域，是使计算机具有智能的根本途径，也是人工智能研究的核心课题之一。它的应用遍及人工智能的各个领域。u 机器学习通常以集中方式训练模型，所有数据由相同的训练算法处理。如果数据是用户私人数据的集合，包括习惯、个人图片、地理位置、兴趣等，则集中式服务器将可以访

2、问可能被错误处理的敏感信息，使得人们的隐私信息受到威胁。212 人工智能攻防技术u 主要内容p 12.1 验证码破解及创新技术p 12.2 分类器攻击技术及防御策略p 12.3 人工智能技术的滥用与检测312.1 验证码破解及创新技术4验证码u 验证码（CAPTCHACAPTCHA）是“Completely Automated Public Turing test to tell Computers Completely Automated Public Turing test to tell Computers and Humans Apart”and Humans Apart”（全自动区分

3、计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序，可以防止恶意破解密码、刷票、论坛灌水，防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试。u 使用验证码验证是现在很多网站通行的方式，可以利用该方式实现用户验证。验证过程可以由计算机完成并评判，用以识别用户的真实性。由于计算机程序无法代替人类自动完成验证，所以验证过程具有一定的科学性。5验证码u 验证码通常用在用户登录或留言的网页界面中。用户在浏览器端，将用户名、密码和验证码等信息提交到服务器，服务器端获取用户的提交信息之后，判断用户提交信息与服务器端保存的字符是否相同。如果相同，则通过对用户提

4、交信息的验证；否则将提示没有通过验证。6图像类验证码破解技术u 图像类验证码破解技术u 这类验证码大多是数字、字母的组合，国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。u 验证码识别大体可以分为下面几个步骤：p 灰度处理：让像素点矩阵中的每一个像素点都满足下面的关系：R=G=BR=G=B（就是红色变量的值，绿色变量的值，和蓝色变量的值，这三个值相等p 增加对比度p 二值化：让图像的像素点矩阵中的每个像素点的灰度值为黑色0 0或者白色255255，也就是让整个图像呈现只有黑和白的效果p 降噪p 识别7图像类验证码破解技术u 自动破解验证码过程p

5、以学校网站http:/ 通过ChromeChrome浏览打开模拟登录的网址，接着点击浏览器右上角的图标-点击更多工具-点击开发者工具，对网页源码进行查看8图像类验证码破解技术p 1.1.通过源码查找输入栏的标签名、输入栏的标签名、输入栏的标签名、的标签名、按钮控件名，p 2.2.使用自动破解程序依次获得上述元素的定位p 3.3.提取出验证码图片，识别p 4.4.使用用户名、密码的输入以及识别后的验证码信息进行自动识别登录u 识别过程可采用机器学习的方法对验证码的图片进行训练u 使用工具：Python 3Python 3、OpenCVOpenCV（流行的计算机视觉和图像处理框架）、KerasKe

6、ras（用PythonPython编写的深度学习框架）、TensorFlowTensorFlow（谷歌的机器学习库）。p（1 1）创建数据集。在图像处理中，经常要检测具有相同颜色像素的“blob”blob”。这些连续像素点的边界称为轮廓。OpenCVOpenCV有一个内置的findContoursfindContours()()，可以用它9图像类验证码破解技术p 来检测这些连续区域。从一个原始的验证码图像开始，将图像转换成纯黑白像素点（色彩阈值法），这样就很容易找到连续区域的轮廓边界。再使用OpenCVOpenCV的findContoursfindContours()()来检测图像中包含相同颜

7、色连续像素块的分离部分。最后把每个区域作为一个单独的图像文件保存起来。p（2 2）构建并训练神经网络。使用一个简单的卷积神经网络架构，它有两个卷积层和两个完全连通的层。经过训练数据集1010次之后，这个卷积神经网络架构达到了接近100%100%的准确度。这个卷积神经网络架构能够在任何需要的时候自动绕过这个验证码。10图像类验证码破解技术p（3 3）使用训练的模型破解验证码。p 从WordPressWordPress插件的网站上获取真正的验证码图像。p 用创建训练数据集的方法，将验证码图像分割成4 4个不同的字母图像。p 神经网络对每个字母图像做一个单独的预测。p 用4 4个预测字母作为验证码的

8、答案。11滑动类验证码破解技术u 最为典型的滑动类验证码是极验滑动验证码。极验滑动验证码是一种在计算机领域用于区分自然人和机器人的简单集成方式，为开发者提供安全、便捷的云端验证服务。u 与以往传统验证码不同的是，极验滑动验证码通过分析用户完成拼图过程中的行为特征来判断是人还是机器。用户不必面对眼花缭乱的英文字符或汉字，整个验证过程变得像游戏一样有趣。12滑动类验证码破解技术u 识别思路：模拟点击验证按钮-识别滑动缺口的位置-模拟拖动滑块u 模拟点击验证按钮：我们可以直接采用SeleniumSelenium（pythonpython类库模块）模拟点击按钮。u 识别滑动缺口的位置：识别缺口的位置比

9、较关键，这里需要用到图像的相关处理方法。p 首先观察缺口的样子，缺口的四周边缘有明显的断裂边缘，边缘和边缘周围有明显的区别，可以通过一个边缘检测算法来找出缺口的位置。p 对于极验滑动验证码来说，可以利用和原图对比检测的方式来识别缺口的位置，因为在没有滑动滑块之前，缺口并没有出现。p 可以同时获取两张图片，设定一个对比阈值，然后遍历两张图片，找出相同位置像素RGBRGB差距超过此阈值的像素点，那么此像素点的位置就是缺口的位置。13滑动类验证码破解技术u（3 3）模拟拖动滑块：这步操作看似简单，实则要考虑很多问题。极验滑动验证码虽然增加了机器轨迹识别、匀速移动、随机速度移动等技术，但都不能通过验证

10、，只有完全模拟人的移动轨迹才可以通过验证。人的移动轨迹一般是先加速后减速，只有符合这个过程才能成功通过验证。14点触类验证码破解技术u 点触类验证码使用单击或拖动的形式完成验证。采用专门的印刷算法及加密算法，保证每次请求到的验证图具有极高的安全性；单击与拖动的形式，为移动互联网量身定制。点触类验证码是一种安全、有趣、互动形式的新型验证方法。识别思路：15p（1 1）识别图片信息：借助相关的验证码识别平台（推荐使用超级鹰）去识别中文汉字/英文数字/纯英文/纯数字/任意特殊字符/坐标选择识别（如复杂计算题、选择题、问答题、单击相同的字/物品/动物等返回多个坐标的识别）等多种类型验证码，得到识别结果

11、在图片中的准确坐标范围。p（2 2）解析坐标模拟单击按钮：采用SeleniumSelenium模拟单击按钮。宫格类验证码破解技术u 宫格类验证码是一种新型交互式验证码，每个宫格之间会有一条指示连线，指示了应该的滑动轨迹。要按照滑动轨迹依次从起始宫格滑动到终止宫格，才可以完成验证。16u 当访问新浪微博移动版登录页面时，就可以看到如上验证码，不是每次登录都会出现验证码，当频繁登录或账号存在安全风险的时候，验证码才会出现。宫格类验证码破解技术u 识别思路：识别从探寻规律入手。规律就是：此验证码的4 4个宫格一定是有连线经过的，每条连线上都会有相应的指示箭头，连线的形状多样，包括C C形、Z Z形、

12、X X形等。u 采用模板匹配的方法，将一些识别目标提前保存并做好标记，同时将做好拖动顺序标记的验证码图片作为模板来对比要新识别的目标和每一个模板，如果找到匹配的模板，则就成功识别出要新识别的目标。17基于GAN的高级验证码破解技术u 尽管已经出现了几种针对图像类验证码的攻击，但图像类验证码仍然被广泛用作安全机制。这是因为之前的攻击都是依靠图像分割，图像识别技术，而现在的验证码增加了很多“安全机制”，用以提高图像分割的难度。u 常见的“安全机制”有：干扰线、字符重叠、字符实心，空心、字符旋转，扭曲、字符大小，颜色、背景噪声。18基于GAN的高级验证码破解技术u 由于深度学习需要大量的样本，构建一

13、个有效的基于CNNCNN的验证码求解器需要超过230230万个独特的训练图像，收集和手动标记这样数量的真实验证码需要大量的人员参与并会产生较大的成本。u 但是最近提出的基于生成对抗网络（GANGAN）的高级图像类验证码破解技术表明，这种添加了“安全机制”的验证码也并不安全，但使用GANGAN技术可以大大减少训练样本的规模。19基于GAN的高级验证码破解技术u 生成对抗网络主要包括两个部分：生成网络和判别网络。u 生成网络（GeneratorGenerator）是一个用来生成新的数据实例的神经网络（并不是真实的数据）；u 判别网络（DiscriminatorDiscriminator）是用来评估

14、其真实性的神经网络，即判别网络决定它所检验的每个数据实例是否属于实际的训练数据集。u 生成网络生成近似来自训练集的样本，只要判别网络不能确定样本是来自GANGAN还是训练集，生成学习就会成功。20基于GAN的高级验证码破解技术u 判别网络和生成网络相互影响。生成网络可以被认为类似于造假者团队，试图生产虚假货币并使用它，而判别网络类似于警察，试图检测伪造货币。在这个游戏中的竞争促使两个团队不断改进其方法，直到假冒伪劣品与真品无法区分。例如，造假者制造1 1元假币（材料、形状、花色），但造假者事先可能并不知道假币的部分特征或全部特征。21基于GAN的高级验证码破解技术u 基于GANGAN的高级图像

15、类验证码破解技术主要解决两个问题：验证码存在“安全机制”和训练样本不足。u（1 1）去除“安全机制”p 首先我们生成两组训练图像，一组（A A组）是常规没有“安全机制”的图像，另一组（B B组）是在前一组的基础上添加“安全机制”的图像，两组图像一一对应。p 生成网络：输入带有“安全机制”的图像，经过神经网络的处理，输出去除“安全机制”的干净图像。p 判别网络：判断生成网络输出的去除“安全机制”的干净图像与A A组中相对应的没有添加“安全机制”的图像是否相同，例如，相差小于5%5%为相同，反之不同。结果反馈回生成网络。p 在不断的生成，判断中，逐步的提高生成网络去除“安全机制”的性能。22基于

16、GAN的高级验证码破解技术u（2 2）合成训练样本p 首先收集，标记少量的验证码样本（大概500500个），利用另一个生成对抗网络合成训练样本，实验证明合成的训练样本和真实样本在视觉上类似。p 通过合成的图像样本训练基本的验证码破解器。2312.2 分类器攻击技术及防御策略2412.2 分类器攻击技术及防御策略u 对于一个人工智能系统来说，最重要的是它的分类器。分类器相当于人类的大脑，能够对不同的输入信息进行判断。分类器在系统中扮演着重要角色的同时，也受到攻击者的大量攻击。目前针对分类器的攻击主要分为以下3 3种类型。p（1 1）对抗性输入攻击：“特制”输入信息，使分类器将错误类信息误分为正确

17、类信息，以逃避检测，如逃避防病毒程序的恶意文档、逃避垃圾电子邮件过滤器的电子邮件。p（2 2）训练污染攻击（数据中毒）：攻击者试图将虚假数据提供给分类器。在实践中观察到的最常见的攻击类型是模型倾斜，即攻击者试图污染训练数据，使分类器的归类操作向攻击者有利的方向倾斜。在实践中观察到的类型攻击还有反馈武器化，其试图滥用反馈机制以操纵系统，将正常数据误分类为恶意数据。2512.2 分类器攻击技术及防御策略p（3 3）模型窃取攻击：用于“窃取”（复制）模型或通过黑盒探测恢复训练原始数据。例如，窃取股票市场预测模型和垃圾电子邮件过滤模型，以便使用它们或能够更有效地针对这些模型进行优化。u 主要内容p 对

18、抗性输入攻击及防御p 训练污染攻击及防御p 模型窃取攻击及防御26对抗性输入攻击及防御u 攻击者不断用有效载荷来探测分类器，试图逃避探测。这种有效载荷称为对抗性输入，是被明确设计的、能够绕过分类器的信息。几年前，一个聪明的垃圾电子邮件发送者意识到，如果同一个multipartmultipart附件在一封电子邮件中出现多次，GmailGmail将只显示可见的最后一个附件。他将这个知识武器化，增加了不可见的第一个multipartmultipart附件，试图逃避检测，此攻击就是关键字填充攻击类别的一个变体。u 一般来说，分类器会面临两种对抗性输入：p 变异输入，这是为避开分类器而专门设计的已知攻击

19、的变体；p 零日志输入，这是在有效载荷之前从未出现过的。27变异输入u 在过去的几年里，可以看到地下服务不断地增长，这种服务旨在帮助网络犯罪分子制造不可检测的有效载荷，在地下服务中最有名的是FUDFUD（完全不可探测的）有效载荷。这些服务包括从针对所有防病毒软件测试有效负载的测试服务，到旨在使恶意文档以不可检测的方式混入正常文档的自动打包程序中的服务。u 专门从事有效载荷制造服务的出现，表明了攻击者主动优化了攻击，以确保能够逃避分类器的检测。u 因此，必须开发检测系统，使攻击者难以进行有效负载探测。下面的3 3个策略可以实现这一点。p（1 1）限制信息泄露。此策略的目标是使攻击者在探测系统时获

20、得尽可能少的信息。保持反馈最小化并尽可能延迟反馈是非常重要的，如避免返回详细的错误代码或置信度值。28变异输入p（2 2）限制探测。此策略的目标是通过限制攻击者针对系统测试有效负载的频率来降低攻击速度。这个策略主要是通过对稀缺资源（如IPIP和账户）的测试实施速率限制来实现的。这种速率限制的典型例子是要求用户通过验证码来验证其是否活动得太频繁。这种主动限制活动率的负面影响会鼓励不良行为者创建假账户，并使用受损的用户计算机来分散其IPIP池。广泛使用限速探测策略推动了黑市论坛的兴起。在这些论坛中，账户和IPIP地址经常被出售。p（3 3）集成学习。结合各种检测机制，使攻击者更难绕过整个系统。使用

21、集成学习将人工智能分类器、检测规则和异常检测等不同类型的检测方法结合起来，提高了系统的鲁棒性，使不良行为者不得不同时制作避免所有机制的有效载荷。例如，为了确保GmailGmail分类器对垃圾电子邮件制造者的鲁棒性，谷歌将多个分类器和辅助系统结合在一起，包括大型线性分类器、深度学习分类器和其他一些保密技术。29对抗性输入攻击及防御p（3 3）集成学习。结合各种检测机制，使攻击者更难绕过整个系统。使用集成学习将人工智能分类器、检测规则和异常检测等不同类型的检测方法结合起来，提高了系统的鲁棒性，使不良行为者不得不同时制作避免所有机制的有效载荷。例如，为了确保GmailGmail分类器对垃圾电子邮件制

22、造者的鲁棒性，谷歌将多个分类器和辅助系统结合在一起。这样的结合系统包括大型线性分类器、深度学习分类器和其他一些保密技术。30零日志输入u 另一种可以完全越过分类器的情况是新攻击（零日志输入）的出现。尽管出现新攻击有许多不可预测的潜在原因，但根据经验，以下两种事件可能会触发新攻击的出现。p（1 1）新产品或功能推出：本质上，增加功能会为攻击者打开新的攻击面，有利于快速进行探测。这就是为什么新产品发布时提供零日志防御是必要的。p（2 2）增加奖励：虽然很少讨论，但许多新攻击激增是由利益推动的。例如，针对20172017年比特币价格飙升，滥用Google CloudGoogle Cloud等云服务来

23、挖掘加密数字货币的行为有所增加。随着比特币价格飙升至1 1万美元以上，可以看到新攻击不断出现，这些攻击都企图窃取GoogleGoogle云计算的资源。31训练污染攻击及防御u 分类器面临的第二类攻击是试图“毒害”数据以使系统行为出错的攻击，也被称作“数据中毒”。u 1.1.模型偏斜u 攻击者试图污染训练数据，使分类器的归类操作向攻击者有利的方向倾斜。例如，模型偏斜攻击可以用来试图污染训练数据，欺骗分类器将特定的恶意二进制文件标记为正常文件。在实践中，经常看到一些先进的垃圾电子邮件制造者团体，试图将大量垃圾电子邮件变为非垃圾电子邮件来使GmailGmail过滤器分类倾斜u 因此，在设计基于人工智

24、能的防御时，须要考虑攻击者试图使分类器的归类操作向攻击者有利的方向倾斜的问题。为了防止攻击者歪曲模型，可以利用以下3 3种策略。32训练污染攻击及防御p（1 1）使用合理的数据采样策略。必须确保一小部分实体（包括IPIP或用户）不能占用模型训练数据的大部分，特别是要注意不要过分重视用户报告的误报率和漏报率。这可以通过限制每个用户贡献的示例数量，或者基于报告的示例数量使用衰减权重来实现。p（2 2）将新训练的分类器与前一个分类器进行比较，以估计发生了多大变化。例如，可以执行黑盒测试，并在相同流量上比较两个输出信息，还可以对一小部分流量进行回溯测试，当变化较大时，就可能出现了异常情况。p（3 3）

25、构建标准数据集，对分类器进行预测。此标准数据集包含一组精心策划的攻击数据和代表系统的正常数据。这个预测过程将确保在攻击对用户产生负面影响之前，检测出该攻击何时能够在模型中产生显著特征。33训练污染攻击及防御u 2 2反馈武器化u 反馈武器化是指将用户反馈系统武器化，以攻击正常用户和正常内容。一旦攻击者意识到系统设计者正在出于惩罚的目的以某种方式使用用户反馈，他们就会试图利用这个事实为自己谋利。反馈武器化之所以被攻击者利用有很多原因，包括压制竞争、进行报复、掩盖自己的行踪。因此，在构建系统时，必须假设任何反馈机制都将被武器化以攻击正常用户。在防御反馈武器化的过程中，须要记住以下两点内容。p（1

26、1）不要在反馈和惩罚之间建立直接循环。相反地，在做出决定之前，要确保反馈的真实性，并将其与其他信号结合起来。p（2 2）滥用内容的受益者并不一定是攻击者。例如，不要因为一张照片得到了数百个假的“赞”，该照片的所有者就要对虚假情况负责。已经存在无数攻击者为了掩盖其踪迹，试图惩罚正常用户而榨取合法内容的案例。34训练污染攻击及防御u 3 3模型重用攻击 u 许多机器学习系统都是通过重用一组通常经过预先训练的原始模型来构建的。截至20162016年，超过13.7%13.7%的机器学习系统至少使用一个GitHubGitHub上的原始模型（预训练神经网络被广泛用于图像数据的特征提取）。通过构建恶意模型（

27、对抗性模型），迫使调用系统在面对输入目标（触发器）时以一种高度可预测的方式执行错误处理。u 模型重用攻击防御策略p（1 1）数字签名，引用验证机制。在使用模型之前，先验证模型是否来自正规渠道，且未经修改。p（2 2）基于训练集执行异常检测。在使用模型之前，先用本地的训练集测试模型是否正常。p（3 3）向可疑的模型注入噪声。35模型窃取攻击及防御u 模型窃取攻击旨在恢复训练期间使用的模型或数据信息，而模型代表了有价值的知识产权资产，这些资产是根据公司的一些最有价值的数据进行训练的，如金融交易、医疗信息、用户交易。要确保根据用户敏感数据（如癌症相关数据等）训练模型的安全，因为这些模型可能被滥用，从

28、而泄露用户的敏感信息。模型窃取攻击主要有两种攻击模式。p 模型重建攻击：这里的关键思想是攻击者能够通过探测公共APIAPI来重新创建模型，并通过将其用作数据库来逐步完善自己的模型。这种攻击似乎对大多数人工智能算法是有效的，包括支持向量机和深度神经网络。p 成员泄露攻击：攻击者构建影子模型，使其能够确定给定的记录是否用于训练模型。虽然此类攻击无法恢复模型，但可能会泄露敏感信息。36基于生成对抗网络的攻击u 最近，有人提出了一种针对联合深度学习模式环境，利用生成对抗网络（GANGAN）获取隐私数据的攻击方式。该攻击方式是一种新型的主动推理攻击模式。在联合深度学习模式环境下，采用该攻击方式对深度学习

29、神经网络进行攻击。在这种攻击下，恶意用户会在受害者无意识的情况下，获取更多的敏感数据及信息，导致隐私泄露。37基于生成对抗网络的攻击过程38基于生成对抗网络的攻击过程u 攻击者A A参与协作深度学习协议。所有参与者事先就共同的学习目标达成一致，这意味着他们就神经网络架构的类型及进行训练的标签达成一致。设V V是声明标签 a,ba,b 的另一个参与者（受害者）。攻击者A A声明了标签 b,cb,c。因此，虽然b b类是共同的，但A A没有关于a a类的信息。攻击者的目标是尽可能多地推断出有关元素a a的有用信息。A A使用GANGAN来生成看起来像受害者的a a类样本的实例。A A将这些假样本从

30、c c类注入分布式学习的过程中。通过这种方式，受害者V V要更加努力地区分a a类和c c类，因此将揭示关于a a类的更多信息而不是最初的预期。因此，内部人员模仿来自a a类的样本，并使用受害者在训练前忽略的分类知识。可以从分类器的输出中学习数据的分布，而无须直接查看数据。39基于生成对抗网络的攻击过程u 右侧的受害者有3 3（a a类）和1 1（b b类）的图像训练模型。攻击者只有1 1类（b b）的图像，攻击者使用生成对抗网络生成假的数据3 3（a a类）并将其标记成错误标签c c类，进行训练，上传错误模型。受害者下载模型，发现模型是错误的（“3”3”预测成c c类），然后用自己正确的a

31、a类数据训练，重新上传模型。从而欺骗受害者发布更多关于a a类的信息。于是这种攻击可以很容易地推广到几个类和用户。攻击者甚至不用从任何真实的样本开始。40基于生成对抗网络的防御策略u（1 1）不同级别的差分隐私。隐私预算较低的差分隐私无法应对GANGAN攻击，但是隐私预算较高的差分隐私还是可以应对GANGAN攻击的。u（2 2）安全多方计算。如图所示，将多个用户的模型参数上传到一个可信的计算方上进行整合，然后发给模型服务器，攻击者就不能获取到单个用户对模型的影响。4112.3 机器学习系统反滥用技术研究4212.3 机器学习系统反滥用技术研究u 任何科学技术都有其双面性，新兴的人工智能人工智能

32、也不例外。因此，在发展人工智能技术的同时，有必要注意防止其被滥用的可能性。u 人工智能技术可能被应用到许多领域而产生新威胁，例如，科幻电影中常常描写到，无人驾驶飞机使用面部识别软件对人类目标进行识别并攻击；人工智能技术被黑客用来搜索代码或被其他方面的漏洞利用等。u 为了防止人工智能技术被滥用，创建人工智能系统的开发者就必须尽其所能，以减轻滥用人工智能技术的危害。u 主要内容p 滥用数据收集p 错误处理43滥用数据收集u 训练分类器来检测欺诈和滥用的行为就是训练分类器来处理攻击者企图逃避检测而生成的数据。训练分类器是一个和攻击者对抗的过程，须要克服以下4 4个挑战：p 1.1.非固定问题：将人工

33、智能技术应用于给定问题时，可以反复使用相同的数据，因为问题是不变的。但将人工智能技术应用于防御滥用行为时，就不可能反复使用相同数据了，因为攻击永远不会停止变化。因此，为了确保反滥用分类器的准确性，要不断更新其训练数据以包含最新类型的攻击数据。44滥用数据收集p 2.2.缺乏真实数据：对于大多数分类任务，收集训练数据相当容易，例如，如果建立一个动物分类器，可以拍摄动物的照片并标记出那些动物。但是，为反滥用目的收集真实数据并不容易，因为不友好的“演员”（攻击者）冒充真正的用户。因此，即使是人类也很难分辨真实和虚假的数据。45p 图中，两个商店评论，根本无法判断出哪一个评论是真的，哪一个是假的（机器

34、学习系统是伪造的）。滥用数据收集p 3.3.模糊的数据和分类：人们认为不好的东西往往被定义得不明确，并且有很多边缘情况甚至人类都难以做出决定，而且背景很重要。例如，如果和朋友一起玩视频游戏，那么“我要杀了你”这句话可以被视为一个健康竞争的标志，如果它被用于其他场合，就可能是一个威胁。p 因此，除了非常具体的用例（如乱码检测），建立适用于所有产品和所有用户的通用分类器是不可能的。例如，垃圾电子邮件归档，即使是完善的垃圾电子邮件概念也是不明确的，对不同的人来说意味着不同的东西。例如，无数的用户认为，其很久以前愿意订阅的电子邮件现在都是垃圾电子邮件了，因为他们对该主题已经失去了兴趣46滥用数据收集4

35、7p 4 4缺乏明显的特征：到目前为止，人们一直专注于对具有丰富特征的文本、二进制和图像等数据进行分类，但并非每个事物都有如此丰富的特征。例如，视频网站必须抵御虚假的播放记录，但是没有可以利用的明显特征。又如，查看一个具体视频的每日播放量视图，可能会出现很多个异常峰值；这些异常值可能来自人工智能系统的“虚拟用户”，或者仅仅因为统计原因出现了异常的播放量；通过观察视图计数随时间的增长情况，无法判断异常的来源。p 一般来说，人工智能系统通常对特征丰富的文本或图像等进行分类器训练。然而，反滥用保护系统必须让人工智能系统充分考虑复杂现实情况以保护所有用户和系统的安全。这须要覆盖整个攻击面，因此要用人工

36、智能系统来处理那些缺乏明显特征的问题。与此同时，人们必须面对一个严峻的事实：一些要保护的系统缺乏促使人工智能系统“茁壮成长”（进行训练）的丰富特征。错误处理u 在较高的层面上，使用分类器来阻止攻击时遇到的主要困难是如何处理错误。正确处理错误的需求可分为两个挑战：p 如何在误报和漏报之间取得适当的平衡，以确保在分类器出错时，系统可以保持安全；p 如何解释阻止某些内容的原因，以便通知用户和进行调试。48错误处理-误报和漏报之间的平衡u 在将分类器投入使用时，做出的最重要决定是如何平衡分类器的错误率。此决定会严重影响系统的安全性和可用性。通过现实生活中的例子可以很好地理解这种情况，如账户恢复。u 当

37、用户失去对其账户的访问权限时，可以选择账户恢复，提供必要的信息用以证明身份，并重新获取其账户的访问权限。在恢复过程结束时，分类器必须根据申请者提供的信息和系统内其他信息（如常用登录地址）决定是否恢复申请者的账户。u 这里的关键问题是当不清楚申请者是否为该用户时，分类器应该做什么。从技术上讲，这是通过调整误报率和漏报率来完成的。一般有两种选择：p 使分类器“谨慎”，这有利于减少误报（黑客闯入），代价是增加漏报（合法用户被拒绝）；p 使分类器“乐观”，这有利于减少漏报，代价是增加误报。49错误处理-误报和漏报之间的平衡u 虽然这两种类型的处理方式都不是很好，但很明显，对于账户恢复，让黑客入侵用户的

38、账户是不可取的。因此，对于该特定用例，必须将分类器调整为“谨慎”。u 为了确保系统尽可能安全和可用，须要调整分类器对不同错误的处理方式。在平衡分类器时，要考虑以下3 3个要点。p（1 1）使用人工判断。当重要性很高且分类器不够准确时，可能要依靠人来做出最终决定。p（2 2）调整误报率和漏报率。针对特定的系统需求，选择减少漏报和增加漏报。p（3 3）实施反馈、警告机制。没有分类器是完美的，实施反馈、警告机制可以减轻错误的影响。该机制主要包括用户反馈和产品内警告。50错误处理-预测结果解释u 能够预测某些行为是否为攻击，并不意味着能够解释为什么攻击该被检测到。分类是一个二元决策，解释它需要额外的信

39、息。从根本上说，处理攻击和滥用是一个二元决策：要么阻止某些行为，要么不阻止。在许多情况下，尤其是当分类器报告出现攻击时，用户想知道为什么该内容被阻止。解释分类器如何达到特定决策，可以从以下3 3个可能的方向来收集其决策所需的额外信息。p 1 1）与已知攻击的相似程度：可以比较被阻止的攻击与已知攻击的相似程度。如果它与其中一个非常相似，那么被阻止的攻击很可能是已知攻击的变种。p 2 2）训练专业的模型：可以使用针对特定攻击类别的更专业的模型集合，而不是使用单个模型对所有攻击进行分类。将检测拆分为多个分类器可以更容易地将决策归因于特定的攻击类。51错误处理-预测结果解释p 3 3）利用模型的可解释性：分析模型的内部状态，以收集有关做出决策的理由。例如，图像的显著性可以帮助人们了解图像的哪个部分对决策的贡献最大。52谢谢谢谢53

展开阅读全文