本文介绍: 论文笔记:信息融合的门控多模态单元(GMU)
论文地址:
GMU
背景
多模态指的是同一个现实世界的概念可以用不同的视图或数据类型来描述。比如维基百科有时会用音频的混合来描述一个名人;来自社交网络的用户用文本和多媒体附件(图像/视频/音频)评论音乐会或体育比赛等事件。医疗记录由图像、声音、文本和信号等的集合表示。之前的方法往往是基于单模态的,这很明显是不完善的,多模态的必要性已经在论文What Makes Multi-modal Learning Better than Single (Provably)中被证明。
多模态融合的任务往往寻求生成单一表示,在构建分类器或其他预测器时使自动分析任务变得更容易。一种简单的方法是连接特征以获得最终表示,虽然这是一个直截了当的策略,但它忽略了不同模式之间的内在相关性
在这项工作中,基于门的思想设计了一个新的模块,被称为门控多模态单元(GMU)它可以结合多个信息源,并对最终目标目标函数进行了优化,用于选择输入的哪些部分更有可能正确地生成所需的输出。使用同时为各种特征分配重要性的乘法门,创建一个丰富的多模态表示,不需要手动调整,而是直接从训练数据中学习。
图中是多模态任务的一个例子,描述了仅根据一种模态的使用为特定电影分配类型的任务。根据输入方式预测的类型标签。红色和蓝色标签分别表示假阳性和真阳性。可以看到,基于单模态的预测结果往往是不完善的或是有误的,在GMU中,使用门控单元的模型将能够学习依赖于输入的门激活模式,该模式决定了每个模态如何对隐藏单元的输出做出贡献。
模型
本文的GMU模块,左图是多模态的情况下,右图是双峰情况,对来自不同模态的单峰特征进行融合。
在左图中每个
x
i
实验
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。