第一位主讲人是18级的刘小溶,她此次为大家分享的是一篇名为《Baseline Needs More Love: Simple Word-embedding-based Models And Associated Pooling Mechanisms》的论文,这篇论文逐点比较基于简单词嵌入模型(SWEMs)之间的研究,包括相对于基于单词嵌入的RNN/CNN,无参数池操作模型。

刘小溶同学首先介绍了SWEMs的任务动机,对比深度学习参数量巨大以及计算复杂度高以及可解释性不强的缺点,结合文本上简单任务的需求,提出Embedding+pooling的方式。接着对该文四种pooling的方式做了介绍。

随后对该论文的实验部分做了详细的解释。实验主要在长文档分类(情感分析,主题分类,本体分类),文本序列匹配,短句分类(情感分析,主题分类,问句分类)三种任务上,分别对比了SWEMs模型与CNN/LSTM的表现。其中,在情感分析上SWEMs表现不如CNN/LSTM,在其他任务上都取得了比CNN/LSTM更好的效果。

刘小溶同学在介绍实验流程

最后刘小溶同学认为我们在读论文的时候,除了要关注新颖的模型,也要关注那些baseline,说不定baseline应用于其他任务,也会有意想不到的效果。

 

第二位主讲人是18级的宋敏,她此次为大家分享的是一篇名为《On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention》的论文,该论文的研究主要集中在“如何识别任意形状的文本”这个课题上。

在seminar开头相关工作的介绍中,宋敏依次为大家介绍CNN、RNN等模型在文本识别中的应用,并指出,尽管这些方法在该领域取得了进步,但它们是基于某种假设——输入文本是水平书写的。

如图1中绿色框的部分,他们通常将为抽象输入补丁而设计的卷积神经网络(CNN)特征提取器与负责字符解码和语言建模的后续递归神经网络(RNN)字符序列生成器结合在一起。 以端到端的方式训练模型。

图1

所以,最近的STR方法更多地关注于处理不规则形状的文本,研究主要有两行:

(1)输入校正 ;

(2)2D特征图的使用。

接下来,宋敏开始剖析STR算法的结构,其网络的CNN模块用的是31层的ResNet,得到的特征图再经过基于LSTM的编码器-解码器框架(encoder-decoder framework)以及两端和feature map、解码器相连的 2D attention 模块 ,最终输出识别的字符串。

STR结构

宋敏表示,位置信息在识别任意形状的文本中起着重要的作用,因为自注意本身没有提供绝对的位置信息:给定当前的字符位置,我们可以在图像中的确切位置找到下一个字符,缺少位置信息使模型很难顺序跟踪字符位置。 因此,SATRN采用了位置编码的2D扩展。

但是,由于文本类型的多样性,一般的位置编码并不能满足要求。例如,水平文本的宽度尺寸上的10个像素将包含比平均水平的对角文本更少的字符数。 所以根据输入的类型,在位置编码中应使用不同长度的元素。 因此,作者提出了自适应2D位置编码(A2DPE),以根据输入,动态地确定高度和宽度元素之间的比率。

宋敏同学展示对比实验

在做出了细节部分的详细解释后,宋敏将实验流程和结果展示在大家面前。除了根据参数和FLOP的数量对前馈块的性能进行比较外,论文还考虑完全不进行任何位置编码,对连接的特征图(“ 1D-Flatten”)使用一维位置编码,并进行联合高度和宽度位置编码(“ 2D-Concat”)以及被建议的A2DPE。

 

以下是刘小溶、宋敏同学在这次seminar中的表现评分。