第一位主讲人是19级的邓丹,她此次为大家分享的是一篇名为《The Gradual Resampling Ensemble for mining imbalanced data streams with concept drift》的论文,这篇论文主要提出了一种特殊的模型来解决漂移和类不平衡这两种联合问题。

邓丹同学首先对数据流、在线学习以及类别不均衡等基础概念做了详细的解释。然后提到过采样方法的现状:一般都是通过评估过去少数样本与当前少数样本集的相似性,将之前接收到的少数样本有选择地吸收到当前少数样本集中。但是这些过采样技术通常忽略了大多数类的分布,因此有类重叠的风险。基于该问题,论文提出了GRE算法(渐进重采样集成)。GRE算法由选择性重采样机制、集成更新机制、加权机制和最终决策四部分构成,其基本思路为首先从之前时刻的少数类中选择一部分添加到当前的少数类集合中,使得当前的不平衡类变成平衡类。并且把当前时刻的少数类和多数类反馈给之前的数据块,使整体快速反应不同的概念漂移。然后对当前的少数集合重新采样后,将某时刻放大后的数据块随机分为p个子块,根据这p个子块建立p个分类器。其次,分别对新分类器和已有的分类器的权值进行评估,新的分类器替换组中性能最差的p个分类器,一个训练集相对平衡的分类器可以获得更高的权重。最后,在得到所有分类器的权值后,使用加权投票规则进行聚合做出最终决定。

GRE算法的系统级框架

接下来,邓丹同学对实验结果进行了分析,她指出该论文选择了七个二分类问题且平衡比都为1:19的数据集进行试验, 验证了不同数据块大小和分类器数量对GRE算法的影响以及GRE与其他算法在不同数据集上的表现。实验结果显示:

  • 预定义的数据块大小不会对GRE的预测能力产生显著影响;
  • GRE使用较小的分类器数量可以充分保存过去数据块的信息,具有良好的泛化性能;
  • 与其他算法相比,GRE提高了少数样本模型的识别率,并且通过使用当前的观测结果更新以前的集成成员,GRE可以快速地对不同类型的概念漂移做出反应,大多数示例中获得良好的性能。

 

第二位主讲人是18级的陈嘉兴,他此次为大家分享的是一篇名为《A new propagation model coupling the offline and online social networks》的论文,该论文主要提出了一种通过在线和离线交互对信息进行传播的模型,通过开发多层网络传播模型来表征在线和离线通信的耦合效果。

多层网络传播模型

陈嘉兴同学在seminar开头便详细解释起论文所提出的多层网络传播模型的主要结构,其中,一、三层表示社交层(在线),节点是账号;二层表示真实网络(线下),节点是个体。实线代表两个账号或个体是朋友或熟人关系,虚线表示账号属于哪个个体。S表示个体或账号没有转发信息;I表示节点已被通知并准备转发消息;R表示节点对消息反感不会转发消息;两种商品的广告信息在一三层传播。

实验对比图

进入实验部分后,陈嘉兴开始对比模型之间的性能差异:传统的SIR模型源于对疾病的研究,其中S为易感,I为感染者,SIR本质上属于社交层上的传播模型;而改进的SIR模型,S先转变为感兴趣或不感兴趣状态。左图社交层上运行的是经典的SIR模型,右图则是改进后的SIR模型经典模型,随着传播的时间增加,R态逐渐增加到1,这是不实际的,而改进的SIR模型在经历一段爆发式增长后趋于平稳,符合实际状况。

在总结阶段,陈嘉兴分析道,通过在线和离线交互对信息传播进行建模,如今已经成为一个具有挑战性的话题,逐渐引起了工业信息学领域的广泛关注。为此,该论文通过开发多层网络传播模型来表征在线和离线通信的耦合效果,该论文所提出的多层网络传播模型主要考虑了以下三个新颖的方面:

  • 在两种类型的社交软件上发生了两种不同的传染;
  • 在个人选择和信息传播的共同影响下,它们之间的竞争和动态过程;
  • 离线和在线社交网络之间的信息耦合。

 

以下是邓丹、陈嘉兴同学在这次seminar中的表现评分。