NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下( 二 )

视觉 sub-prompt 给定一个图像 I 以及它的区域候选 R = {v_1, v_2, . . . , v_n} , 视觉 sub-prompt 旨在用自然视觉标记对图像区域进行独特标记 。 有趣的是 , 研究...


视觉 sub-prompt
给定一个图像 I 以及它的区域候选 R = {v_1, v_2, . . . , v_n} , 视觉 sub-prompt 旨在用自然视觉标记对图像区域进行独特标记 。 有趣的是 , 研究者注意到 , 在文献中 , 彩色边界框被广泛用于对图像中的对象进行独特标记 , 以实现可视化 。 受此启发 , 研究者通过一组颜色 C 来关联图像区域和文本表达 , 其中每种颜色
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

是由它的视觉外观
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

(如 RGB (255, 0, 0))和颜色文本
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

(如:red)来定义的 。 然后他们用一种独特的颜色
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

标记图像中的每个区域候选 v_i , 以此来定位 , 这会产生一组彩色图像候选Ψ(R; C) , 其中 Ψ(·) 表示视觉 sub-prompt 。
在实验中 , 研究者发现 , 用实心块给目标着色比用边界框效果更好 , 因为纯色目标在现实世界的图像中更为常见(如红色 T 恤、蓝色车) 。 由于视觉 sub-prompt 被添加到原始图像中 , 因此 VL-PTM 的架构或参数不会发生变化 。
文本 sub-prompt
【NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下】文本 sub-prompt 旨在提示 VL-PTM 建立查询文本与被视觉 sub-prompt 标记的图像区域的联系 。 具体来说 , 此处用一个如下所示的模板 T (·) 将查询文本 q(如「the horse watched by the woman」)转换为填空查询:
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

如此一来 , VL-PTM 会被提示决定哪个区域的颜色更适合填充掩码(如红色或黄色) , 如下所示:
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

其中 , v^* 表示目标区域 ,
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片


NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

在预训练 MLM head 中的嵌入 。 需要注意的是 , 这个过程并没有引入任何新的参数 , 而且还缩小了预训练和微调之间的差距 , 因此提高了 VL-PTM 微调的数据效率 。
实验结果
在实验部分 , 研究者对 CPT 的能力进行了评估 , 设置了 zero-shot、few-shot 和全监督等多种情况 , 主要结果如下表 1 所示:
NLP大火的prompt能用到其他领域吗?清华孙茂松组的 CPT 了解一下
文章图片

从表中可以看出:
1. 在 zero-shot 和 few-shot 设置中 , CPT 的性能大大优于随机基线和强微调基线 。 例如 , 使用色块作为视觉 sub-prompt , 在 RefCOCO one shot 中 , CPT 绝对准确率提高了 17.3% , 相对标准差平均降低了 73.8% 。 这表明 CPT 可以有效地提高 VL-PTM 微调的数据效率 , 并激发 VL-PTM 的视觉定位潜力 。
2. 在视觉 sub-prompts 中用分割掩码给目标着色(CPT-Seg)获得了比块(CPT-Blk)更好的结果 。 这是因为适合物体轮廓的纯色在现实世界的图像中更常见 , 这使得 CPT-Seg 成为更自然的视觉 sub-prompt(尽管需要更强的注释来训练分割工具) 。
3. 值得注意的是 , CPT 实现的标准差明显小于微调 。 例如 , 在 RefCOCO 评估中 , CPT-Blk one-shot 相对标准差平均降低了 73.8% 。 这表明 , 来自预训练的连贯微调方法可以带来更稳定的 few-shot 训练 , 这是评估 few-shot 学习模型的关键因素 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。