第一位出场的是18级的常国飚,他此次为大家分享的是一篇名为《Differentiable Cross-Entropy Method》的论文,这篇论文主要介绍了一种全新的模型优化方法。

常国飚同学首先就论文中的方法所应用到的一些原理做了一个简单的介绍:

1.相对熵(即KL散度)可以用来衡量两个概率分布之间的差异

2.交叉熵主要用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小

3.在机器学习中,训练数据分布是固定的,最小化相对熵(即KL散度)等价于最小化交叉熵,也就等价于最大化似然估计

接着,常国飚同学指出现阶段的常用的优化方法并不能很好地解决连续非凸优化问题,其中最明显的例子便是梯度下降方法,尽管梯度下降还衍生出许多种改进版本用以适应不同的应用场景,但本质上依然是使用导数求解的方法来计算梯度,这种思路的核心问题就在于它是利用局部的凸优化来近似全局的优化问题,显而易见,局部最优解往往不能代表全局最优。

Differentiable Cross-entropy Method(简称DCEM)虽然是一种基于交叉熵的算法,但并不是我们熟知的监督学习中的交叉熵方法,与其说它是一种基于交叉熵的算法,倒不如说是一种基于蒙特卡洛和进化策略的算法。CEM算法不仅可以用作评估,也可以作为一种有效的优化算法,与进化算法(EAs)类似CEM是一种完全免梯度(gradients free)的算法。

DCEM方法假设训练集是服从某一种未知的真实分布的,随后,为了准确估计真实分布期望,DCEM算法引入了重要性采样(importance sampling),首先通过一个类似于目标概率分布的采样概率分布f(x;v)来进行采样,则目标被转化为如何找到一个最优的采样概率函数f(;∗),去指导采样用来准确地估计期望。

随后,CEM在每次迭代中通过选取较好的采样样本(Elite samples)来更新采样概率函数的参数v,目的是减小当前采样概率函数f(;)与最优采样概率函数f(;∗)的分布差距(即KL散度,相对熵)。

在介绍完与其他方法之间的对比实验后,常国飚同学说出了一些自己的见解:DCEM算法是一种端到端的算法,可以作为一种针对非限制性非凸连续优化问题的候选方案,与此同时,DCEM还能应用到一个极为重要的领域,即强化学习,通过不断地迭代策略分布,来达到最优解。

 

第二位出场的是18级的李祉呈同学,他此次为大家分享的是一篇名为《Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation》的论文,这篇论文主要介绍了关于两种不同情况下的场景分割方法。

算法流程图

李祉呈在PPT的开头对场景分割做了一个简短的介绍,场景分割是一项具有挑战性的任务,因为它需要标记图像中的每个像素。接着介绍了以往的场景分割方法,并提出了这些方法的不足,如对于过于微小的物体,和同样物体不同尺寸的情况下,以前的方法不能很好完成场景分割。

卷积示意图

李祉呈提到为了获得更好的分割效果,关键是要利用好上下文信息并聚合多尺度特征。这篇文章首先提出了一种新的上下文对比局部特征方法,它不仅利用了上下文信息,而且还将局部信息与上下文对比。提出的上下文对比局部特征方法大大提高了解析性能,特别是对于不显著的对象和背景。

此外,文章还提出了一种门控和的方法来选择性地聚集每个空间位置的多尺度特征。该方案中的门控制不同尺度特征的信息流。它们的值不仅仅是从训练数据中学习到,同时也需要从测试图像中生成,因此它们不仅对训练数据具有自适应性,而且对特定的测试图像也具有自适应性。

以下是常国飚、李祉呈同学在这次seminar中的表现评分。