第一位出场的是19级的付茂莹,她此次为大家分享的是一篇名为《Graph Convolutional Networks for Text Classification》的论文,这篇论文主要介绍了一种用于文本分类的图卷积神经网络。

       付茂莹首先简短的介绍了文本分类和图神经网络,介绍了基于深度学习的文本识别的优缺点,从而由此提出了一个新的基于图神经网络的文本分类方法。

接着付茂莹介绍了GCN的主要原理和算法,GCN是一种多层神经网络,它直接作用于一个图,并根据其邻域的性质来诱导节点的嵌入向量。GCN只能通过一层卷积捕获关于近邻的信息。当多个GCN层堆叠在一起时,有关较大邻域的信息就会被集成。在此基础上构建了一个包含单词节点和文档节点的大型异构文本图明确地对全局单词共现进行建模。

实验对比

随后付茂莹展示了在五个广泛使用的基准语料库上进行了实验的结果,包括20NG、Ohsum- ed、R52和R8以及电影评论(MR)。运行所有模型10次,并得到均值±标准差。由此可见,TextGCN在20NG、R8、R52和Ohsumed上显著优于基准方法。

最终付茂莹提出自己的结论,Text GCN能够实现较强的文本分类结果,并能学习预测文档和单词嵌入,为整个语料库构建了一个异构的单词-文档图,并将文档分类转化为一个节点分类问题,文本GCN能够很好地捕捉全局词的协同信息,利用有限的标记文档。

 

 

第二位展示的同学是18级的黄罗杰,黄罗杰给大家分享了一篇名为《Graph Convolution for Multimodal Information Extraction from Visually Rich Documents》的论文,该论文介绍了一种全新的多模态学习方法,该方法利用图卷积实现VRD中的多模态信息抽取。

作为seminar的开头,黄罗杰首先就两个概念——VRD(Visually Rich Document)和多模态进行了补充说明。其中,VRD泛指视觉信息丰富的文档,而多模态学习方法则旨在通过机器学习的方法实现处理和理解多源模态信息的能力。黄罗杰指出,本次论文所关注的重点与上述两个概念密不可分,即将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程。

利用文件信息构建图网络

论文首先利用Optical Character Recognition技术,通过检测明暗的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字,随后将视觉信息和文本信息结合形成图网络,其中每一个节点都是利用Bi-LSTM计算其嵌入得到的。

在构建完图网络后,论文使用了使用GCN模型加入attention信息,而Embedding的整合与训练则是利用了目前最主流的Bi-LSTM+CRF,以便得到效果最突出的实体抽取任务的模型。

嵌入模型

       在进行了若干种对比试验之后,黄罗杰提出了自己对该论文的一些理解,他认为,该论文值得称道的地方在于融合了多种流行的框架,如GCN,GAT,BiLSTM等,且从问题出发,在建模方式上进行创新,不局限于以往的用template做VRD信息抽取的模式。与此同时,缺点也很明显,只考虑了segment的位置信息,没有考虑segment中text的字体,大小等信息,有待改进。

以下是付茂莹、黄罗杰同学在这次seminar中的表现评分。