第一位主讲人是王柯同学,他此次分别从Introdoctions,Models,Experience和Conclusion这四部分介绍SeqGAN。

SeqGAN用对抗网络和强化学习实现了离散序列数据的生成模型。解决了对抗生成网络难应用于NLP领域的问题,并且在文本生成任务上有优异表现.

SeqGAN把生成器看作是强化学习中的 Stochastic Policy,这样 SeqGAN 就可以直接通过 gradient policy update 避免生成器中的可导问题。同时,判别器对整个序列的评分作为强化学习的奖励信号通过 Monte Carlo 搜索传递到序列生成的每个生成时刻。具体来说,作者将生成器生成序列的过程看做是一个强化学习中的序列决策过程。生成模型被看作一个 agent,目前为止已生成的序列表示当前 state,下一个要生成的单词则是采取的 action,判别模型对当前已生成序列的评价分数则是返回的 reward。

第二个出场的是顾天一同学,他此次为大家介绍的是APR算法,并且为了照顾新研一的同学,降低了本次seminar的分享内容的难度。

顾天一同学在做实验结果分析

BPR(Bayesian Personalized Ranking)算法是推荐系统中一种常用的pairwise排序模型,APR就是将BPR模型结合对抗训练的思想来提高模型的鲁棒性。在推荐场景中特征都是离散型的id类特征,如果直接在样本上增加噪声,则样本的语义特征可能变化很大,故在样本级别引入噪声并不合适,应在模型参数上引入扰动。APR是通用的学习框架,只要分数可导,则模型即可通过梯度下降求解,优化过程分构建对抗扰动和学习模型参数两个过程。通过实验可证明APR算法在准确性和鲁棒性上均优于BPR算法。

以下是王柯、顾天一同学在这次seminar中的表现评分。