深度学习的可解释性

2022.07.18

吴飞廖彬兵韩亚洪

摘要：深度学习已经成功运用在自然语言、多媒体、计算机视觉、语音和跨媒体等相关的特定领域。然而，这一架构在“端到端”模式下、通过标注大量数据来进行误差后向传播而优化参数的学习方法被比喻为一个“黑盒子”，解释性较弱。可解释性指算法要对特定任务给出清晰概括，并与人类世界中已定义的原则或原理联结。在诸如自动驾驶、医疗和金融决策等“高风险”领域，利用深度学习进行重大决策时，往往需要知晓算法所给出结果的依据。因此，透明化深度学习的“黑盒子”，使其具有可解释性，具有重要意义。围绕深度学习可解释性这一问题，本文从卷积神经网络可视化、卷积神经网络的特征分析、卷积神经网络的缺陷及优化、利用传统机器学习模型来解释神经网络和基于可解释模块的深度网络学习这五个方面介绍现有研究工作。对近年来人工智能顶级会议上关于深度学习可解释性的论文发表数量进行统计分析，发现深度学习的可解释性是目前人工智能研究的一个热点。最后，本文认为深度学习的可解释性研究可从因果模型、推理、认知理论和模型、智能人机交互等方面着手，以构建出可解释、更通用和适应性强的人工智能理论、模型和方法。

关键词：深度学习;可解释性;端到端;可视化;智能人机交互;人工智能

中图分类号：TP18文献标识码：A文章编号：1673-5048（2019）01-0039-08[SQ0]

0引言

目前，深度学习[1-2]已经成功运用于自然语言、多媒体、计算机视觉、语音和跨媒体[3-7]等相关特定领域。然而，深度学习架构在“端到端”模型上，通过标注大量数据驱动的误差后向传播来不断优化模型参数，这一学习过程犹如“黑盒子”：人们很难理解深度网络中隐藏层数目、神经元个数和激活函数形式等会对结果产生怎样的影响，使得深度学习大多依赖于大量的工程经验和技巧。

于是，只要设计好模型结构，如网络隐藏层数目、每个隐藏层中包含的神经元数目、激活函数类型（Sigmoid或ReLu激活函数）等，收集大量标注数据，应用能力强的计算架构，不断优化模型参数，就可以训练得到一个针对特定任务的神经网络。

在这种“端到端”学习过程中，准备好数据、设计好模型结构即可，以“炼金术”方式不断调整网络隐藏层数目、每个隐藏层中包含的神经元数目、激活函数类型，来调整网络参数，最终得到一个特定任务、特定场景的“最优”深度学习模型。

近年来，许多研究人员都意识到需要打破深度学习“黑盒子”之桎梏，建立深度学习可解释性[8]的若干评价准则：

（1）算法结果的合理性。在诸如自动驾驶、医疗和金融决策等领域，进行重大决策时，需要知道算法所给出决策的合理依据。如果算法只是提供建议作为参考，也要知道算法建议的理由，才能评估算法结果是否值得参考。如在医疗上，曾发生过预测感染肺炎机率的算法因为历史数据存在偏差，误认为患有气喘与心脏疾病的人死于肺炎的机率要小于一般健康的人。

（2）算法可被改进。如果模型具备可解释性，则算法研发者可根据其输出结果优劣的原因所在，对算法进行改良。如果算法不具备解释性，则改良算法变得异常艰难，如设计一个深度学习算法要将所有熊猫的图像分类出来，但是若在熊猫图像中添加少许噪音，则该算法容易将熊猫图像识别为其他物体。由于所设计算法不具有可解释性，因此对算法的改进就无从下手。

（3）算法能提供学习的启迪。当一个学习模型从海量数据中萃取出知识，则可使人类利用这些知识来提高能力。如AlphaGo[9]从浩瀚棋局中采样得到人类棋手几乎从未涉足的棋局，从而提高了棋手对围棋的理解能力。但这往往需要人类弄清楚模型如何“下”出了如此奇招妙术。

（4）算法要符合法规要求。人工智能具有技术属性和社会属性高度融合的特点。随着智能算法逐渐赋能社会，需要算法对执行结果具有解释能力，并且符合法律法规要求，如《欧盟数据保护通用条例》（GeneralDataProtectionRegulation）就规定使用者有“要求解释的权力”。

本文将分别介绍深度学习可解释性研究的五个方向：卷积神经网络的可视化、卷积神经网络的特征分析、卷积神经网络的缺陷及优化、利用传统机器学习模型来解释神经网络、基于可解释模块的神经网络学习，最后对深度学习可解释性的进展进行总结并展望其发展趋势。

1卷积神经网络的可视化

1.1基于梯度的滤波器可视化

对卷积神经网络（ConvolutionalNeuralNetworks，CNN）中学习得到的滤波器（filter）进行可视化是探索神经元内部模式最直接的方式。目前，研究人员已提出了许多卷积神经网络可视化的方法。

基于梯度的方法[10-13]是卷积神经网络可视化的主要方法。输入一张图像，這些方法计算图像所对应的CNN中神经元的梯度，然后利用梯度来估计使神经元响应最大的图像外观。在神经网络中，一个神经元将前序相连神经元给其的输入信息进行加权累加，然后进行非线性变换，将变换结果以不同权重向后续相连神经元传递。文献[10]提出了两种卷积神经网络可视化的方法，第一种是在计算输入图像的类别置信度梯度基础上，生成一幅能够最大化类别置信度的图像，于是能对卷积神经网络所学习到的该类别内在模式进行可视化。第二种是给定某幅输入图像及其类别标签，计算其类别显著性图（saliencymap），这种显著性图可用来实现物体分割。文献[11]提出了另外一种可视化方法，可帮助深入了解卷积神经网络的中间特征层功能以及分类器的操作。该方法还分析了神经网络中不同隐藏层在分类任务中所做出的不同贡献。文献[12]提出了一种通过深度学习所得结果来重建图像的框架，分析了卷积神经网络中不同隐藏层对原始图像的几何和光照等不变性特点。文献[13]发现在不损失任务精度情况下，卷积网络中最大池化层（maxpooling）可用卷积层来代替，只需要将卷积步幅增加即可。同时，文献[13]还提出了一种反卷积网络方法，可以用于可视化深度学习得到的特征。

航空兵器2019年第26卷第1期

吴飞，等：深度学习的可解释性

1.2上卷积网络

上卷积网络[14]（upconvolutionalnetworks）是另一种可视化卷积神经网络的技术。与CNN将图像非映射到区别性特征相反，上卷积网络将CNN学习得到特征反向映射到图像。值得注意的是，文献[14]发现图像某些视觉属性可通过靠近输出端的激活函数甚至最后一层预测置信度大小来重建。

文献[15]在生成对抗网络（GenerativeAdversarialNetworks，GAN）中以隐式码元（latentcode）形式引入了一个附加先验，用来控制合成图像的语义，从而提升训练样本的质量和多样性。该方法由一个生成器网络G和一个可替换条件网络C组成，C既可以是一个用于图像分类的网络，也可以是一个用于图像描述生成的网络。

1.3图像区域提取与显示

圖像区域提取是另一类能够可视化卷积神经网络的方法，给定一幅带标签的图像，该方法能直接提取和输出对提高分类置信度起作用的图像区域，达到解释模型输出的目的。

文献[16-17]提出了将特征图最终损失的梯度回传到图像平面的方法来估计图像区域。文献[18]提出了LIME模型，该模型通过在预测值局部的学习，从而以一种可解释的且令人信服的方式解释任意分类器的预测值，并将该方法用于提取对网络输出高度敏感的图像区域。文献[19-20]提出了能够将输入图像中对CNN决策过程贡献最大的区域进行可视化的方法。文献[21]可对神经网络在决策过程中注意区域以及与注意区域相关的主要类别进行可视化。文献[22]提出了一种解释神经网络的启发式方法，该方法通过计算Kullback-Leibler散度来选择与预测值最相关的参数，并且将输入图像散度和CNN的分类预测结果绘制成热度图，为“图像哪部分区域参与分类”提供了视觉解释。文献[23]提出了一种被称为层级相关性传播（layerwiserelevancepropagation）方法，可对非线性分类器的分类决策结果在像素级上找到解释，得到每个像素参与分类决策的贡献大小，绘制出热度图以供参考。

2卷积神经网络的特征分析

2.1从全局进行CNN的特征分析

文献[24]通过单元分析的方法，探索了每个滤波器的语义含义，发现神经网络中高层所包含的语义信息与整个高层结构有关而跟单个高层单元无关。文献[25]通过实验量化了卷积神经网络的中间层滤波器的迁移性，发现通过可迁移特征对网络参数进行初始化可提高网络泛化能力。文献[26]使用大型3DCAD模型数据库进行渲染，分析了CNN在识别不同场景过程中的重要因素。文献[27]将两种无监督降维学习算法PCA和ICA应用于预训练CNN输出上，通过内嵌（embedding）表示来揭示物体类别在视觉上的相似性。

2.2从局部进行CNN的对抗样本学习

对抗机器学习（adversarialmachinelearning）[28]通过构建对抗样本来探测深度学习模型的脆弱性，从而理解深度学习的可解释性。文献[29]通过探讨卷积深度神经网络中各隐藏层神经元在不同对抗样本上被激活的差异，回溯判断神经元对卷积深度神经网络决策过程的影响。文献[30]建立了一个逼近卷积深度神经网络的线性替代模型（substitutemodel），并在结构更加清晰的替代模型上利用梯度信息构建对抗样本，模拟深度模型对微小扰动的反应，以分析卷积深度神经网络对输入样本变化的敏感性。文献[31-32]提出了用于计算CNN对抗样本的方法，这些研究旨在估计可以改变输入图像所对应最终预测结果的最小噪声扰动。值得注意的是，文献[32]提出了一种可用于计算对抗样本的影响函数，这种影响函数还可以通过创建训练样本以攻击CNN的学习、修复训练集，并进一步调试CNN表示。

3卷积神经网络的缺陷及优化

3.1卷积神经网络的缺陷

文献[33]发现了CNN会因数据集而引发潜在的偏差表示。具体来说，当利用CNN来估计图像属性的时候，若某个属性经常与训练图像中的特定视觉特征共同出现时，CNN会趋向于使用共同出现特征来表示属性。当某一属性所对应特征在语义上与目标属性本身无关时，可视为偏差表示。实际上，这种由于数据集偏差引起的表示缺陷是无法通过基于测试图像这一传统评估策略来发现，因为测试图像也可能含有相同偏差。给定一个预训练CNN，例如用于估计面部属性的CNN，文献[33]首先要求用户去标记属性之间真实存在的一些关系，如“唇膏”属性与“浓妆”属性之间是正相关，并与“黑发”属性无关。然后，该方法挖掘CNN中卷积层输出这些属性的模式，并使用这些模式来计算编码在CNN中的实际属性关系。真实的属性关系与挖掘出来的属性关系之间的冲突表明，CNN的表示确实是有偏差的。

现实世界中的预测模型可能会给实例分配错误的标签。这种错误或者未知模式来源于模型的不完备性，通常是由于训练数据和测试数据不匹配造成的。给定一个预训练好的用于物体分类的CNN，文献[34]提出了一种以弱监督的方式来发现CNN知识盲点（未知模式）的方法。该方法通过预言（oracle）反馈自动发现和识别未知模式。这一方法根据实例特征相似度和预测模型给出的置信度将CNN整个特征空间中所有采样点分类为数千个伪类别。假设一个性能良好的CNN能够使用每个伪类别的子空间来表示特定物体类的子集。通过这种方式，该方法随机展示了每个子空间内物体样本，并利用探索-利用（explore-exploit）策略来揭示隐藏在预训练CNN中的潜在表示缺陷。

3.2卷积神经网络的优化

将神经网络和结构化的逻辑规则相结合，利用逻辑规则的灵活性来提升神经网络可解释性是卷积神经网络优化的一种方法。文献[35]提出了一种能利用一阶逻辑来优化神经网络的方法。具体而言，该方法是一种迭代蒸馏的方法，将逻辑规则的结构化信息转换为神经网络的权重，并将基于该方法的卷积神经网络和循环神经网络分别应用于情感分析和命名实体识别。该方法以自然语言中直观的逻辑规则作为损失函数，对网络进行优化，从而获得高性能的可解释网络表示。

文献[36]通过利用丰富的语义信息来提升神经网络的可解释性。以视频描述生成任务为例，文献[36]先通过WarpLDA[37]提取一些覆盖了大多数视觉概念的具有语义信息的主题，然后通过一个可解释损失函数将其整合进模型中，利用一个预测误差最大化算法来解释每个神经元学到的特征。在视频描述生成任务上的实验验证了该方法的有效性。不仅如此，将视频描述生成任务中所学习得到的特征迁移到视频动作识别任务中也依然有效。通过人机交互（humanintheloop）方式，用户易于更正错误预测值，从而对神经网络进行优化。

文献[38]提出了一种基于采样和强化学习的新型损失函数，通过该损失函数训练的网络不仅可以判别出图像的属性，还可以同时生成判别的依据。实验结果表明，添加了新型损失函数的网络比图像描述生成的网络具有更好的性能。

4利用传统机器学习模型来解释神经网络

與前述神经网络的可视化、特征分析、缺陷和优化相比，利用传统机器学习模型也可解释神经网络。考虑到卷积网络的卷积层中的每个滤波器都融合了某些物体部位的表示，Zhang等人[39-40]提出了一种解释预训练CNN的卷积层特征的方法，并使用可解释图（explanatorygraph）来揭示隐藏在CNN内的知识层次。该方法是一种无监督学习的方法，即不需要物体的部位标记信息。

图1所示的可解释图揭示了CNN中隐藏的知识层次和滤波器所对应特征图中组件模式（partpattern）的融合方式，并使用图节点来表示一个部位：

（1）可解释图具有多层，每层对应于CNN的特定卷积层。

（2）可解释图中的每个节点表示一个具有高迁移性的组件模式，这些组件模式由数百或数千个不同图像中相同物体组件所共享。因此，可以将节点用于物体定位。

（3）可解释图中，边表示相邻层中两个节点之间相同激活关系及其对应组件的空间关系。

（4）每个输入图像只能触发可解释图中的一小部分节点。

在可解释图的基础上，Zhang等人[41]提出了一种通过决策树来定量解释卷积网络的预测逻辑。该方法可以在CNN的高层卷积层中学习物体部位的显示表示，同时在全连接层中挖掘潜在决策模式。决策树通过一种由粗到细的方式对这些潜在决策模式进行重组，从而可以定量解释CNN的预测逻辑。也就是说，给定输入图像，使用CNN来进行预测。决策树将揭示卷积层中哪些滤波器会参与预测以及这些滤波器对预测结果的贡献程度。

5基于可解释模块的神经网络学习

上述方法几乎都集中在对预训练网络的解释上。本节将介绍基于可解释模块的神经网络学习方法，这些神经网络的中间层不再是黑盒子，而是具有明确的语义。与对预训练好的网络进行解释相比，基于可解释模块的神经网络学习带来了更大的挑战。目前，只有少数关于这方面的研究。

5.1可解释的卷积神经网络

文献[42]提出了一种可解释的卷积神经网络，如图2所示。该方法通过为卷积层中每个滤波器添加损失来获得高层卷积层中可解释表示。在可解释卷积神经网络中，每个滤波器所对应特征图表

示某个物体组件。与此同时，该方法不需要标注任何物体组件或纹理来指导可解释神经网络学习。相反，该网络会在“端到端”学习过程中自动为高层卷积层中每个滤波器分配一个物体组件。可解释卷积网络中的显示知识表示可以帮助人们更好地理解卷积神经网络中的逻辑。

5.2可解释的区域卷积神经网络

基于隐性结构学习和区域卷积网络（RCNN）[43-45]，文献[46]提出了一种用于物体检测的可解释区域卷积神经网络。该方法是一种弱监督学习模型，可在物体检测过程中自动展开物体组件的隐组件标记（partconfiguration），且不需要标注任何组件作为监督信息。文献[46]使用了一种有向无环与或图（AndOrGraph，AOG）模型，并利用该模型中的自上而下的层次和组合语法模型来模拟物体部位的隐标记，从而探索和展开兴趣区域（RegionofInterest，RoI）的隐组件标记空间。与此同时，该方法提出了一种AOG解析运算符来替代RCNN中使用的兴趣区域池化（RoIPooling）运算符。在物体检测过程中，边界框由AOG导出的最佳解析树来解释。该方法采用了一种折叠-展开的“端到端”的方法来训练AOG和RCNN。

5.3胶囊网络

文献[47]提出了一种被称为“胶囊”的新型神经单元，这种单元可代替传统的神经单元以构建胶囊网络。每个胶囊由一组神经元组成，这些神经元的活动向量（activityvector）表示某种实体类型的实例化参数。活动向量的长度表示实体出现概率，活动向量的方向表示实例化的参数。活跃的低层胶囊预测结果会通过转移矩阵发送到相邻更高层的胶囊之中。当多个预测信息一致时，高层胶囊会变得活跃。该方法使用协议路由（routingbyagreement）机制，该机制会为那些能更好拟合高层胶囊的实例化参数的低层胶囊分配更高权重。在MNIST[48]上的实验表明，使用训练胶囊网络时，胶囊编码了一个特定语义概念。胶囊活动向量的不同维度刻画了不同特征，如（1）尺度和厚度;（2）局部部位;（3）笔画粗细;（4）局部偏斜;（5）宽度和平移。

6发展趋势与展望

6.1发展趋势

关于深度学习的可解释性的发展趋势，对近5年（2014～2018年）发表在机器学习与人工智能相关的国际顶级会议（ICML，NeurIPS，AAAI，IJCAI，CVPR，ICCV/ECCV）上的论文进行调研，统计分析了题目包含“explain”或“interpret”的深度学习相关的论文，统计结果如表1所示。

近5年来，总共有101篇关于深度学习的可解释性的论文发表在上述的关于机器学习和人工智能的七大国际顶级会议中，统计调查后发现：

（1）总体来讲，深度学习的可解释性是当前的一个研究热点。关于深度学习可解释性的论文在2014～2015年几乎没有，在2016年只有11篇，但在2018年却增长到了62篇。

（2）关于深度学习的可解释性的研究呈现出快速增长趋势，且增长速度越来越快。2014～2015年的时候几乎没有关于深度学习的可解释性的研究，但随后以每年10余篇左右的增长趋势增长，2018年关于深度学习的可解释性的研究已经达到62篇。可以预见，之后两年关于深度学习的可解释性的研究会越来越多。

（3）上述各大机器学习与人工智能的会议既包含了理论又包含了应用，但每年关于深度学习的可解释性的研究论文数量分布都较为均匀，体现了深度学习的可解释性的理论价值和应用价值，从侧面说明了深度学习的可解释性的重要性。

6.2展望

2018年9月，美国国防高级研究计划局（DARPA）启动了被称为“加速第三波”的人工智能探索（ArtificialIntelligenceExploration，AIE）项目，探索类人水平的交流和推理能力，以对新环境自适应。

DAPRA认为，第一波人工智能以符号主义人工智能为手段，主要处理语言和可描述信息;第二波人工智能在数据建模基础上、从数据中学习模式，以模型假设的机器学习为手段;第三波人工智能以自适应和推理为核心目标。

美国国家科学基金会（NationalScienceFoundation，NSF）2018年12月启动了“鲁棒智能（robustintelligence）”项目，旨在对复杂和真实环境下的人工智能进行更好理解。

目前，深度学习的可解释性研究虽然取得了一定的进展，但仍处于初级阶段，还有许多值得研究的方向：

（1）深度学习+因果模型（causalmodeling）。因果计算指从观察数据中发现事物间的因果结构和定量推断，将深度学习与因果模型相结合，是研究深度学习的可解释性的一种直观和自然的方法。图灵奖获得者JudeaPearl教授曾通过三个层面来解释因果与关联之间的关系：关联（association）是直接可从数据中计算得到的統计相关;介入（intervention）是无法直接从观测数据就能得到关系，如“某个商品涨价会产生什么结果”;反事实（counterfactual）指某个事情已经发生了，那么在相同环境中，这个事情不发生会带来怎样的新结果。

（2）深度学习+推理（reasoning）。深度学习可以与推理在多个方向进行结合：a.常识推理（commonsensereasoning），将深度学习与常识相结合，形成可解释的能自动推理的系统;b.类比计算（computationalanalogy），在复杂环境中，利用已有的案例和不完备的信息进行推理;c.时空推理（spatialtemporalreasoning），为智能体设计高级的控制系统，使其能导航和理解时间和空间。DARPA在2018年10月启动了一个被称为“机器常识（machinecommonsense）”的项目，研究如何从书本和已有数据中学习常识、如何从环境交互中学习常识以及如何测试常识能力等内容。《淮南子说山训》中曾写到：见一叶落，而知岁之将暮;审堂下之阴，而知日月之行，阴阳之变。人类具有这样的常识推理能力，从一个现象“直觉联想”到另外一个现象。

（3）认知理论和模型（cognitivetheoryandmodeling）。现有的许多深度学习模型都来源于对生物认知的模仿，如“神经网络”一词本身就表明其借鉴了生物的神经元结构，卷积神经网络和长短时记忆网络都可以看作是大脑皮层结构的模仿。要设计出更鲁棒的可解释的深度学习系统，可以考虑将更先进的认知理论和模型与深度学习系统相结合。

（4）智能人机交互（intelligenthumancomputerinteraction）。要设计出可解释的智能深度学习交互系统，可从以下几个方向考虑：人类认知建模、脑机接口、触觉界面、人机交互和协作、用户适应和个性化。

良好的人工智能模型应该是可解释、更通用和自适应的，从数据、规则以及交互中永不停息（neverending）进行学习[49]。数据驱动的机器学习方法已经成功运用于自然语言、多媒体、计算机视觉、语音和跨媒体等领域，后续应以可解释性作为切入点，通过注意力机制、记忆网络、迁移学习、强化学习等手段与人类知识进行有机结合，从而实现从浅层计算到深度神经推理、从单纯依赖于数据驱动的模型到数据驱动与知识引导相结合、从领域任务驱动智能到更通用条件下的强人工智能。

参考文献：

[1]LeCunY，BengioY，HintonG.Deeplearning[J].Nature，2015，521（7553）：436-444.

[2]GoodfellowI，BengioY，CourvilleA，etal.DeepLearning[M].Cambridge：MITPress，2016.

[3]MikolovT，SutskeverI，ChenK，etal.DistributedRepresentationsofWordsandPhrasesandTheirCompositionality[C]∥AdvancesinNeuralInformationProcessingSystems，2013：3111-3119.

[4]WuFei，LuXiyan，SongJun，etal.LearningofMultimodalRepresentationswithRandomWalksontheClickGraph[J].IEEETransactionsonImageProcessing，2016，25（2）：630-642.

[5]KrizhevskyA，SutskeverI，HintonGE.ImagenetClassificationwithDeepConvolutionalNeuralNetworks[C]∥AdvancesinNeuralInformationProcessingSystems，2012：1097-1105.

[6]GravesA，JaitlyN.TowardsEndtoEndSpeechRecognitionwithRecurrentNeuralNetworks[C]∥Proceedingsofthe31stInternationalConferenceonMachineLearning，Beijing，2014：1764-1772.

[7]PengYuxin，HuangXin，ZhaoYunzhen.AnOverviewofCrossMediaRetrieval：Concepts，Methodologies，Benchmarks，andChallenges[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology，2018，28（9）：2372-2385.

[8]ZhangQuanshi，ZhuSongchun.VisualInterpretabilityforDeepLearning：ASurvey[J].FrontiersofInformationTechnology&ElectronicEngineering，2018，19（1）：27-39.

[9]SilverD，HuangA，MaddisonCJ，etal.MasteringtheGameofGowithDeepNeuralNetworksandTreeSearch[J].Nature，2016，529（7587）：484.

[10]SimonyanK，VedaldiA，ZissermanA.DeepInsideConvolutionalNetworks：VisualisingImageClassificationModelsandSaliencyMaps[EB/OL].（2014-04-19）[2018-11-29].https：∥arxiv.org/pdf/1312.6034.pdf.

[11]ZeilerMD，FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]∥13thEuropeanConferenceonComputerVision，Zurich，2014：818-833.

[12]MahendranA，VedaldiA.UnderstandingDeepImageRepresentationsbyInvertingThem[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，Boston，2015：5188-5196.

[13]SpringenbergJT，DosovitskiyA，BroxT，etal.StrivingforSimplicity：TheAllConvolutionalNet

[EB/OL].（2015-04-13）[2018-11-29].https：∥arxiv.org/pdf/1412.6806.pdf.

[14]DosovitskiyA，BroxT.InvertingVisualRepresentationswithConvolutionalNetworks[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，LasVegas，2016：4829-4837.

[15]NguyenA，CluneJ，BengioY，etal.Plug&PlayGenerativeNetworks：ConditionalIterativeGenerationofImagesinLatentSpace[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），Honolulu，2017.

[16]FongRC，VedaldiA.InterpretableExplanationsofBlackBoxesbyMeaningfulPerturbation[C]∥IEEEInternationalConferenceonComputerVision（ICCV），2017.

[17]SelvarajuRR，CogswellM，DasA，etal.GradCAM：VisualExplanationsfromDeepNetworksviaGradientBasedLocalization[C]∥IEEEInternationalConferenceonComputerVision（ICCV），2017.

[18]RibeiroMT，SinghS，GuestrinC."WhyShouldITrustYou？"：ExplainingthePredictionsofAnyClassifier[C]∥Proceedingsofthe22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining，2016：1135-1144.

[19]ZintgrafLM，CohenTS，AdelT，etal.VisualizingDeepNeuralNetworkDecisions：PredictionDifferenceAnalysis[C]∥InternationalConferenceonLearningRepresentations，Toulon，2017.

[20]KindermansPJ，SchüttKT，AlberM，etal.LearningHowtoExplainNeuralNetworks：PatternNetandPatternAttribution[C]∥InternationalConferenceonLearningRepresentations，Vancouver，2018.

[21]KumarD，WongA，TaylorGW.ExplainingtheUnexplained：AClassEnhancedAttentiveResponse（CLEAR）ApproachtoUnderstandingDeepNeuralNetworks[C]∥ProceedingsoftheIEEEComputerVisionandPatternRecognition（CVPR），Honolulu，2017.

[22]BabikerHKB，GoebelR.UsingKLDivergencetoFocusDeepVisualExplanation[EB/OL].（2018-01-25）[2018-11-29].https：∥arxiv.org/pdf/1711.06431.pdf.

[23]BachS，BinderA，MontavonG，etal.OnPixelWiseExplanationsforNonLinearClassifierDecisionsbyLayerWiseRelevancePropagation[J].PlosOne，2015，10（7）：e0130140.

[24]SzegedyC，ZarembaW，SutskeverI，etal.IntriguingPropertiesofNeuralNetworks[EB/OL].（2014-02-19）[2018-11-29].https：∥arxiv.org/pdf/1312.6199.pdf.

[25]YosinskiJ，CluneJ，BengioY，etal.HowTransferableareFeaturesinDeepNeuralNetworks？[C]∥AdvancesinNeuralInformationProcessingSystems，2014：3320-3328.

[26]AubryM，RussellBC.UnderstandingDeepFeatureswithComputerGeneratedImagery[C]∥ProceedingsoftheIEEEInternationalConferenceonComputerVision，2015：2875-2883.

[27]LuYao.UnsupervisedLearningonNeuralNetworkOutputs：withApplicationinZeroShotLearning[EB/OL].（2016-05-23）[2018-11-29].https：∥arxiv.org/pdf/1506.00990.pdf.

[28]PapernotN，McDanielP，JhaS，etal.TheLimitationsofDeepLearninginAdversarialSettings[C]∥SecurityandPrivacy（EuroS&P），IEEEEuropeanSymposiumonSecurityandPrivacy，Saarbrucken，2016：372-387.

[29]DongY，SuH，ZhuJ，etal.TowardsInterpretableDeepNeuralNetworksbyLeveragingAdversarialExamples[EB/OL].（2017-08-18）[2018-11-29].https：∥arxiv.org/pdf/1708.05493.pdf.

[30]RossAS，DoshiVelezF.ImprovingtheAdversarialRobustnessandInterpretabilityofDeepNeuralNetworksbyRegularizingTheirInputGradients[C]∥AAAI，2018：1660-1669.

[31]SuJ，VargasDV，KouichiS.OnePixelAttackforFoolingDeepNeuralNetworks[EB/OL].（2018-02-22）[2018-11-29].https：∥arxiv.org/pdf/1710.08864.pdf.

[32]KohPW，LiangP.UnderstandingBlackBoxPredictionsviaInfluenceFunctions[EB/OL].（2017-07-10）[2018-11-29].https：∥arxiv.org/pdf/1703.04730.pdf.

[33]ZhangQuanshi，WangWenguan，ZhuSongchun.ExaminingCNNRepresentationswithRespecttoDatasetBias[EB/OL].（2017-11-22）[2018-11-29].https：∥arxiv.org/pdf/1710.10577.pdf.

[34]LakkarajuH，KamarE，CaruanaR，etal.IdentifyingUnknownUnknownsintheOpenWorld：RepresentationsandPoliciesforGuidedExploration[C]∥AAAIConferenceonArtificialIntelligence，2017.

[35]HuZhiting，MaXuezhe，LiuZhengzhong，etal.HarnessingDeepNeuralNetworkswithLogicRules[EB/OL].（2016-11-15）[2018-11-29].https：∥arxiv.org/pdf/1603.06318.pdf.

[36]DongYinpeng，SuHang，ZhuJun，etal.ImprovingInterpretabilityofDeepNeuralNetworkswithSemanticInformation[EB/OL].（2017-03-30）[2018-11-29].https：∥arxiv.org/pdf/1703.04096.pdf.

[37]ChenJianfei，LiKaiwei，ZhuJun，etal.WarpLDA：ASimpleandEfficientO（1）AlgorithmforLatentDirichletAllocation[EB/OL].（2016-03-02）[2018-11-29].https：∥arxiv.org/pdf/1510.08628v1.pdf.

[38]HendricksLA，AkataZ，RohrbachM，etal.GeneratingVisualExplanations[C]∥14thEuropeanConferenceonComputerVision，Amsterdam，2016：3-19.

[39]ZhangQuanshi，CaoRuiming，WuYingnian，etal.GrowingInterpretablePartGraphsonConvNetsviaMultiShotLearning[C]∥AAAIConferenceonArtificialIntelligence，2017：2898-2906.

[40]ZhangQuanshi，CaoRuiming，ShiFeng，etal.InterpretingCNNKnowledgeviaanExplanatoryGraph[C]∥AAAIConferenceonArtificialIntelligence，2018.

[41]ZhangQuanshi，YangYu，WuYingnian，etal.InterpretingCNNsviaDecisionTrees[EB/OL].（2018-02-01）[2018-11-29].https：∥arxiv.org/pdf/1802.00121.pdf.

[42]ZhangQuanshi，WuYingnian，ZhuSongchun.InterpretableConvolutionalNeuralNetworks[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2018：8827-8836

[43]GirshickR，DonahueJ，DarrellT，etal.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，2014：580-587.

[44]GirshickR.FastRCNN[C]∥ProceedingsoftheIEEEInternationalConferenceonComputerVision，Santiago，2015：1440-1448.

[45]RenShaoqing，HeKaiming，GirshickR，etal.FasterRCNN：TowardsRealTimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence，2015，39（6）：1137-1149.

[46]WuTianfu，SunWei，LiXilai，etal.TowardsInterpretableRCNNbyUnfoldingLatentStructures[EB/OL].（2018-09-06）[2018-11-29].https：∥arxiv.org/pdf/1711.05226.pdf.

[47]SabourS，FrosstN，HintonGE.DynamicRoutingbetweenCapsules[C]∥AdvancesinNeuralInformationProcessingSystems，2017：3856-3866.

[48]LeCunY.TheMNISTDatabaseofHandwrittenDigits[EB/OL].[2018-11-29].http：∥yann.lecun.com/exdb/mnist/，1998.

[49]ZhuangYueting，WuFei，ChenChun，etal.ChallengesandOpportunities：FromBigDatatoKnowledgeinAI2.0[J].FrontiersofInformationTechnology&ElectronicEngineering，2017，18（1）：3-14.