第一位主讲人是19级的王柯,他此次为大家分享的是一篇名为《Topic-Aware Neural Keyphrase Generation for Social Media》的论文。

为了让大家了解该论文所做的工作,王柯在seminar开头进行了一些背景介绍:每天在社交媒体上有大量用户生成的内容发布,为了便于自动语言理解,该论文研究关键词预测,即从大量帖子中提取显著信息。相比于大多数从源帖子中提取单词以形成关键短语的现有方法,该论文提出了基于序列到序列(seq2seq)的神经关键词生成框架,使得不出现在帖子中的关键词也可以被生成。此外,论文的模型有主题感知的特性,能对跨文本级的隐性主题表示进行联合建模,这有助于缓解在社交媒体语言中广泛存在的数据稀疏性。

       随后,王柯解释道,社交媒体语言的关键词预测是非常难得,因为它通常是一种非正式的写作方式和口语化的表达。研究的难点就在于社交媒体语言是带有很大的噪音以及自身非正式的写作方式,这带来了很大的数据稀疏性,给模型带来很大的挑战。之前的工作都是基于抽取做的,这个可能比较适合一些正式的文体,比如论文,报纸。但是对于社交媒体语言来说,就存在比较大的困难,因为它的关键词很有可能不在原帖子里

       王柯指出,该论文提出的解决方案就是——主题感知的关键词生成,即使用跨文本级的隐主题来改善数据稀疏问题,使用序列生成来产生新关键词。论文中整个模型的结构,主要由两部分构成:用于探索隐主题的神经主题模块和用于关键词生成的seq2seq模块。

模型的两个模块的输入分别是经过bag of words(词袋模型)编码的向量Xbow ,用于神经主题模型的输入,和词的索引Xseq ,用于关键词生成模块的输入,模型的输出则是关键词序列。考虑到介绍的简洁性,王柯把下面的这块称作神经主题生成模块,上面的部分叫做神经关键词生成模块。神经主题模块的输入Xbow首先由词袋编码器编码为连续的隐变量z(代表x的主题),然后,词袋解码器基于隐变量z尝试重建x并输出Xbow的向量X‘bow。其实解码器模拟了主题模型的生成过程。

       论文在三个社交媒体数据集上进行了实验,一个中文数据集微博和两个英文数据集Twitter和stackexchange。其中,Twitter是来自2011年的推文,微博是2014年1月到8月的实时趋势。Stackexchange则是从公开的语料库随机采样得到。

训练数据和样本标签

在展示完实验结果后,王柯总结和分析道:

  • 本论文提出了一种新的社交媒体关键字生成模型,该模型允许联合学习潜在主题表示。
  • 论文模型为这个任务构建了三个新的社交媒体数据集
  • 实验结果表明,论文提出的模型在社交媒体语言上有着更好的表现

 

第二位主讲人是18级的曾琦,他此次为大家分享的是一篇名为《Leveraging percolation theory to single out influential spreaders in networks》的论文。

在背景部分,曾琦介绍道,识别网络中重要节点对于控制疾病或谣言的传播,或者最大化信息的传播是非常重要的,预测网络中节点传播能力的方法有很多,例如degree, betweenness centrality , k-shell (or k-core) , and eigenvector centrality等等。

同时,曾琦补充说明道,一个完全通用的预测节点重要性的方法并不存在,因为不同中心性的预测能力不仅取决于底层网络的拓扑结构,而且还取决于具体的扩散过程。而他本次seminar所介绍的论文,则是针对专注于SIR传播模型,提出了一个识别重要节点的指标。

SIR模型

该论文首先提出了一种名为Non-Backtracking centrality的方法:首先将网络表示成一个2E*2E的非回溯矩阵M;其后,求解非回溯矩阵的主特征向量V,由于渗流理论与SIR模型可以相互映射,故而可以计算出边渗流的边占据概率。

曾琦解释道,这种中心性类似于一般的特征向量中心性,但是它忽略了顶点i对它的邻居的中心性的贡献,从而避免了在某些情况下自我强化的效应,在局部树状网络中,对于边渗流和点渗流,其渗流阈值正好是NB矩阵的最大特征值的倒数。节点属于渗流簇的概率与疾病爆发规模是成正比的。

实验结果

在展示了相应的实验结果后,曾琦的总结如下:

  • NB centrality是所有方法中最好的,并且时间复杂度很低。
  • k-shell在所有方法中效果最不好。
  • NB centrality在SIR传播模型效果很好,在其他传播模型上是否适用还有待研究。
  • 对于SIR模型上,多点传播情况下,寻找最有影响力节点集,NB是否可以应用也有待研究。

以下是王柯、曾琦同学在这次seminar中的表现评分。