AI对抗攻防技术发展研究及政策建议——《网络安全技术和产业动态》总第29期

2022-12-01

摘自：《网络安全技术和产业动态》2022年第11期，总第29期。

AI对抗攻防技术是人工智能对抗样本攻击与防御技术的简称。对抗样本指的是对原始样本添加微小扰动的样本，以欺骗人工智能算法，使其产生错误输出结果。因此，人工智能对抗样本攻击与防御技术是指围绕人工智能算法和应用，设计对抗样本进行攻击或开展针对性防御的技术。

近年来，以深度学习为代表的人工智能技术发展迅速，在计算机视觉、自然语言处理、自动驾驶等领域取得了突破性进展。与此同时，人工智能安全性和鲁棒性问题引起了人们的极大关注，对抗样本攻击与防御技术是其中受到关注度最高的研究方向之一，学界和企业界提出了多种典型的攻击和防御方法，两者之间的对抗也在不断进化演绎。

01 技术发展情况

2013年，谷歌公司的Szegedy等人首先基于图片识别领域提出对抗样本的概念。他们在原有图片样本中添加了人类几乎无法察觉的微小扰动，使人工智能图片识别系统高置信度地输出了错误的结果。之后，大量研究人员开展了对抗样本攻击和防御技术的研究。研究表明，通过施加精心设计的细微扰动构建对抗样本，可以欺骗人工智能系统，使其产生指定或随机的输出结果。如有研究者在停车场的停车标志牌上贴上了很小的一块图片，尽管人类看到后丝毫不会受到影响，但车辆自动驾驶系统会将该停车标志识别为限速行驶标志。

同时，对抗样本攻击和防御技术扩展到了目标检测、图像识别、语音识别、自然语言处理、人脸识别、恶意软件检测等多种AI应用场景。如在语音识别场景中，攻击者可以对自动语音识别模型和语音控制系统发出对抗性命令，使得这些语音识别系统产生错误的操作，包括苹果的Siri、亚马逊的Alexa、微软的Cortana都会受到这种攻击的影响。

针对不同对抗攻击模式，研究人员一直在研究相应的防御方法，使得人工智能模型能够防御对抗样本带来的攻击，并得到正确的输出结果。现有的对抗样本防御方法主要分为三大类，即修改数据、修改模型、使用辅助工具。其中，修改数据的方法是指对输入数据进行预处理以检测出对抗样本并剔除，或将对抗样本加入训练集加强训练来提高模型鲁棒性，具体包括特征压缩、随机化处理以及对抗训练等方法；修改模型的方法是指修改人工智能模型，通过改变或隐藏模型的结构，提高模型面对扰动的鲁棒性，具体包括梯度正则化、防御性蒸馏、增加隐藏层等方法；使用辅助工具的方法是指使用附加工具作为神经网络模型的辅助工具，包括使用生成对抗网、使用检测器来识别合法样本和对抗样本等方法。这些对抗样本防御方法各有优缺点，在实际部署中经常会采用多种防御方法相结合的方式来提高防御能力。

对于对抗样本存在的必然性，一般认为是因为训练数据不足，模型过拟合或欠正则化，导致了对未知数据的泛化能力不足；也有认为对抗样本是由深度神经网络的高维线性行为引起的。到目前为止，由于人工智能系统的黑盒特性，实际上我们还没真正研究清楚产生对抗样本的内在机制，所以目前还不存在对所有对抗样本攻击都有效的防范手段。

02 技术发展难点

近年来随着科技的蓬勃发展，AI逐步成为各类智能应用技术的核心驱动能力。在安全攸关自动驾驶、医疗卫生、金融应用等领域，AI智能系统的非正常运行可能直接危害人身安全和财产安全。AI对抗攻防技术作为挖掘模型对抗安全风险并进行防御的关键手段，发展难点包括：

（一）深度网络模型存在技术脆弱性

由于AI技术中广泛使用的深度学习模型参数规模大、体系结构复杂，同时训练需要大量数据。这些问题导致模型难以调试，缺乏可解释性。即使在非对抗场景下，也有可能出现意料之外的安全隐患。这导致当前攻防技术主要聚焦在单点上，缺乏对内在机理的认识，使对抗样本的影响难以真正消除。

（二）缺乏对抗样本防御方法评估机制

很多防御方法仅通过小型数据集进行实验，测试效果不够严谨，不足以支撑开展相应效能评估。未来研究需要建立一个有效防御对抗攻击的系统化效能评估机制。

（三）现有防御能力不足

现有对抗攻击防御方法多是针对特定的已知攻击算法有效，泛化性较差。主要体现在以下三点：

1）面对对抗样本攻击，模型的鲁棒性始终面临着挑战，主流的防御方式鲁棒性泛化能力弱等。

2）新的攻击手段层出不穷、持续演进，但防御方法跟进滞后。

3）针对某种对抗攻击的防御方法通常难以适用于其它攻击方法。

03 产业落地情况

经过近十年研究，人工智能对抗样本攻击和防御技术正处于由学术研究转化为商业应用的探索期，大量科技企业、科研院所和高校集体入场，发表了大量研究论文，进行了相关技术研发，在AI安全工具、工业互联网、模型鲁棒性基准测试等场景有一些实践探索。

对近年论文发表数量统计可以看出，人工智能对抗样本攻击和防御是人工智能安全领域最受关注的研究方向，论文数量远远超出数据投毒攻击和防御、模型可解释、联邦学习、差分隐私机器学习等方向。

在成果使用方面，已经出现Cleverhans、Foolbox、ART、Advbox 等支持学术研究的开源工具，以及利用对抗样本攻击评测计算机视觉模型安全性的商用平台 RealSafe。阿里巴巴、腾讯、百度等科技企业通过举办人工智能对抗攻防大赛，积极发现针对人脸识别、图像分类、文本分析、目标检测等人工智能典型应用的有效对抗样本攻击和防御方法，并在关乎人身安全、财产安全以及国家社会安全的一些领域，开始探索人工智能应用安全防护工作。

04 意见和建议

（一）加强人工智能基础理论研究

人工智能目前发展迅速，但基础理论研究还不够扎实，对AI算法的可解释性、内部工作原理、对抗样本生成机理的理解还不够透彻。建议进一步重视相关的基础理论研究，包括积极利用国家专项开展人工智能安全基础理论研究、加大高校人工智能方向人才培养力度等，并突破人工智能对抗样本攻击和防御的核心关键技术，提高人工智能算法的安全性和鲁棒性。

（二）促进产业生态之间的高效协同，推进技术落地

人工智能生态各参与方需紧密高效协同，重点关注高安全风险行业及重点安全场景的AI安全问题，结合实际场景实际问题深入研究AI对抗攻防中存在的技术挑战及现实安全风险。建议产学研各界联合攻关，重点针对自动驾驶、医疗卫生、金融应用等场景，开展对抗样本攻击和防御技术研究，提高人工智能模型及系统的落地可用性同时，鼓励人工智能应用企业、研究机构和高校充分发挥各自优势，通过成立联合实验室、共同投资等多种方式，加速推进人工智能安全技术落地。

（三）推进攻防技术体系及平台建设

人工智能涉及面广、应用场景复杂，面临模型算法、数据隐私、传统网络攻击威胁等安全风险。建议建立人工智能安全监测预警机制，加强攻击和防御技术研究的协同发展，推进AI攻防技术与传统安全技术相结合，打造全链路、全生命周期、全方位AI系统安全治理体系及防御平台。

中国网络安全产业联盟（CCIA）主办，北京百度网讯科技有限公司供稿。