第一位主讲人是19级的杜雨奇,她此次为大家分享的是一篇名为《Adaptive Attention Span in Transformers》的论文,这篇论文是基于transformer模型提出了一个关于自适应注意力广度的算法。

杜雨奇同学首先介绍了虽然Transformer在很多任务上都取得了很好的效果,但是它很难将序列长度扩展到1000个Tokens以上,对于字符级的语言模型来说,上千个token的输入是很常见的。所以在原始的transforme结构中的计算过程中加入了一个soft-masking函数。

随后对该论文的实验部分做了详细的解释。由于注意范围是整数(因此是不可微的),所以不能像模型的其他参数那样通过反向传播直接学习它,因此可以使用一个soft-masking函数将其转换为连续值,只需将这个掩模函数插入到每个注意力head中,这样每个head就可以根据数据确定不同的注意力范围。

最后杜雨奇同学指出自适应计算后的注意力范围可以大大提高计算效率和内存效率,并且在实验中取得了很好的效果。

 

接着出场的是19级的王杨,他此次为大家分享的是一篇名为《Semi-Supervised Graph Classification : A Hierarchical Graph Perspective》的论文,这篇论文主要介绍了两种新的半监督图分类。

王杨同学在做模型展示

王杨首先介绍了什么是节点分类和图分类,一个图的节点通常代表一个现实世界的实体,例如,在社交网络中,一组具有共同兴趣的人组成一个用户组,而许多用户组通过交互或公共成员相互连接,接着介绍了论文中的设计方法,论文中设计了两种新的半监督解决方案,称为半监督图分类。SEAL-C/AI采用迭代框架,轮流构建或更新两个分类器,一个在图实例级工作,另一个在层次图级工作。为了简化层次图的表示,我们提出了一种新的监督自关注图嵌入方法SAGE,它将任意大小的图实例嵌入到固定长度的向量中。

在介绍了基本方法后,王杨介绍了如何设计神经网络结构,灵活地取任意大小的图实例,生成固定长度的嵌入向量、如何在不考虑节点排列的情况下得到表示和如何将不同节点的重要性编码成统一的嵌入向量。

图嵌入任务所面临的三项挑战

最后介绍了将该方法应用到数据集中的表现,通过对合成数据和腾讯QQ群数据的实验,证明了SEAL-C/AI不仅在精度/宏观f1上有显著的优势,而且对学习表征产生了有意义的解释,半监督解决方案SEAL-C/AI采用迭代框架,通过扩大训练集,交替更新IC和HC。不能在精度/宏观f1方面留有余地,而且它们还生成了对图实例的学习表示的有意义的解释。

 

以下是杜雨奇、王杨同学在这次seminar中的表现评分。