精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic视觉推理框架

论文已被 NeurIPS 2021 接收 。
动态视觉推理(Dynamic Visual Reasoning), 尤其是涉及到物体间物理关系的推理, 是计算机视觉中一个重要且困难的问题 。 给定一个观测视频, 它不仅要求模型根据视频推理出视频中物体的交互过程, 还要求对视频的长期未来(Long-term)以及反事实(Counterfactual)情形进行预测, 而这两项预测恰好是现有神经网络模型的弱点 。
现有方法可以大致被分为两类:使用端到端神经网络(如 Vision Transformer)来对物体间关系进行建模的方法 [3], 和基于神经符号(Neuro-Symbolic)的推理模型 [2, 4];前者受益于 Transformer 等的强大表征有着不错的性能, 但是其依赖大量数据, 且推理过程不透明且难以解释;而后者基于神经符号逐步进行推理, 模型具有良好的解释性, 但是精度受限;此外, 现有方案都难以解决长期和反事实预测的难题 。
本文提出的基于可微物理模型的神经符号推理框架很好的解决了这个问题, 它通过从视频和问题对中学习物理模型, 并利用显式的物理模型对物体动力学进行建模, 基于准确的动力学预测来回答长期和反事实预测问题 。 本文的框架透明可解释, 并在 精度上超过了基于 Transformer 的模型 。 此外, 它显示了良好的数据效率, 在只使用 20% 甚至更少的数据即可取得不错的效果 。 本文作者来自 香港大学 (HKU), 麻省理工大学 (MIT) 和 MIT-IBM 沃森人工智能实验室, 论文已被 NeurIPS 2021 接收 。

精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic视觉推理框架

文章插图

图 1. [NeurIPS 2021] VRDP 作者介绍
项目主页:http://vrdp.csail.mit.edu/
论文链接:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
代码链接:https://github.com/dingmyu/NCP
背景和数据介绍本文使用最多的数据集是 CLEVRER 数据集 [2] 。 如下图所示, 它使用简化的物体(圆球, 圆柱, 正方体等)来学习动力学相关的推理问题:1. 发生了什么 ?(Descriptive question); 2. 为什么发生?(Explanatory question); 3. 将会发生什么?(Predictive question); 4. 如果… 会发生什么 (Counterfactual question) 。 人类可以比较轻松地利用物理直觉和常识来推断这些问题, 然而这对于机器来说就有些困难了, 尤其是 Counterfactual 的问题, 例如, 假设没有黄色的金属圆柱, 会是怎样的情形?这很考验物理建模和空间想象的能力 。 即使基于 Transformer 的模型可以很好的解决 Descriptive 和 Explanatory 问题, 它们也总是会在 Counterfactual 的情形中失败 。
精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic视觉推理框架

文章插图

图 2. CLEVRER 推理数据集示例
方法介绍本文作者发现, 现有方案的弊端是没有显式的使用物理模型, 而是过于依赖神经网络或 GNN 的隐式推理, 这导致他们在长期预测和反事实推理中无法很好的捕捉视频中的逻辑 。 基于此, 作者引入了一个可微的物理引擎, 并通过从视频中捕捉到的物体轨迹和属性来还原视频中物体和场景的物理参数(速度, 加速度, 质量, 弹性系数, 摩擦力等) 。 一旦所有的相对物理参数被推理出来, 即得到了显式的物理模型后, 作者使用物理模型进行基于预测的和反事实的物理模拟, 并根据模拟后的轨迹和特征来回答相关问题 。 具体流程如下图所示 。
精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic视觉推理框架

文章插图

图 3. 基于物理模型的推理示例 。 (1)使用一个感知模块从视频中获取每个物体及其对应的轨迹和属性;(2)利用上述视频观测通过可微物理模拟来学习相关物理参数;(3)通过物理模拟进行预测并回答相关问题 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。