第一位主讲人是19级的尹泓森,他此次为大家分享的是一篇名为《LiveBot Generating Live Video Comments Based on Visual and Textual Contexts》的论文,这篇论文讨论的是关于实时直播视频下的文本评论生成方法。

       Seminar之初,鉴于实验室此前未曾讨论过类似实时评论生成算法的经历,尹泓森开始就文本评论的生成模式做出了较为详细的阐述。尹泓森表示,根据数据类型的不同,文本评论总体上也会形成四类不同的模式:

  • 根据图像数据生成文本;
  • 根据已有文本数据生成文本;
  • 根据两种数据的组合生成文本;
  • 根据基于图像数据产生的文本结合图像生成新的文本;

尹泓森表示,第一种方案属于图像识别,第二种类似于机器翻译,第三种则是“视觉问答”这种任务,而实时评论生成可以划分到第四类任务中。

四类任务

       进入实验部分后,论文将Fusional RNN 作为主要模型(模型采用两层编码,一层解码,运用LSTM处理,视频先由卷积网络编码),以目前市场上流量最大的几家视频网站上的视频弹幕评论为训练数据对模型进行训练。关于评价指标,论文将评估方法设计为一个排序问题,排序结果中人为的月靠前效果越好。

       在介绍三种baseline之间的实验差别后,尹泓森总结该论文的主要贡献:提出了自动实时评论的任务,并构建了大规模的实时评论数据集,同时还介绍了两个神经模型来生成评论,共同对图像上下文和文本上下文进行编码。 实验结果表明模型可以取得较好的效果,性能较以前的神经网络模型要好一些。

 

第二位主讲人是19级的王妮婷,她为我们分享的是一篇名为《deep shading: convolutional neural network for screen space shading》的文章,这篇文章巧妙的将深度学习的方法运用于解决图形学相关问题,并取得了较好的结果。

论文介绍

首先,为了大家更好的理解这次的内容,王妮婷同学以图形学的一个典型效果:环境光遮蔽(ambient occlusion)为切入点,从效果对比、原理分析、主要类型和运行场景四个方面解释了什么是环境光遮蔽,并进一步说明了目前各种类型的优缺点:基于光线跟踪的环境光遮蔽(RTAO)效果好,但是代价高时间开销大门;基于屏幕空间的环境光遮蔽(SSAO)效果一般,但是效率高。

  为了权衡两者的优缺点,这篇文章提出了将position、normal等属性信息输入CNN去拟合相应的屏幕空间效果,如AO(环境光遮蔽)效果。

AO(环境光遮蔽)效果

 然后,王妮婷同学对文章中的网络结构和具体参数设置等作了详细的介绍,文中仍然运用光栅化后的G-buffer中的属性结果,环境光遮蔽效果的拟合输入为位置和法线两个信息,运用一个简单的U-net(“U”型网络)进行训练。

最后在测试集上取得了较好得结果:时间开销小于RTAO,同时效果比传统的屏幕空间着色效果更好且接近于RTAO。总的来说,虽然分享的这篇文章的方法不复杂,但是为后面的一系列相关研究提供了很好的思路,有兴趣的同学可以自行下载阅读。

以下是尹泓森、王妮婷同学在这次seminar中的表现评分。