最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准

机器之心发布
机器之心编辑部

在计算机视觉领域甚至人工智能的发展历程中 , ImageNet对于整个领域的技术进步具有至关重要的作用 。 随着多模态学习成为当下的新热点 , 为了通过大规模数据集建设和全方位模型能力评测推动多模态领域的发展 , 阿里达摩院推出MUGE(全称Multimodal Understanding and Generation Evaluation Benchmark)评测基准 。 该基准是由达摩院联合浙江大学、阿里云天池平台联合发布 , 中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出的首个大规模中文多模态评测基准 。 其拥有全球最大规模的中文多模态评测数据集 , 覆盖多种类型的任务 , 包括图文描述、基于文本的图像生成、跨模态检索等 。 MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题 , 并且为广大研究者提供权威平台 , 从理解能力和生成能力两大角度去衡量算法模型的有效性 。
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

背景
近年来 , 大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展 , 同时也推动了多模态表征学习的研究 。 2020 年 Jeff Dean 就曾指出 , 多模态研究将会是未来研究一大趋势 。
在国内 , 目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练 , 近期相继推出了百亿、千亿、万亿参数和十万亿参数模型 M6 模型 [1][2][3][4] , 目前是全球规模最大的预训练模型 , 并已将其应用到各大下游任务 , 广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中 。 同时 , 达摩院联合阿里云发布了 M6 预训练平台(https://m6.aliyun.com) , 将大模型的能力以服务的形式对外提供 , 同时 M6 预训练平台是目前下游任务覆盖最广泛的平台 , 简洁易用 , 数行代码即可执行微调和预测等功能 。
然而 , 目前多模态领域的评测基准和数据集多以英文为主 , 如 MSCOCO 的 Image Captioning [5] , VQA [6][7] , textVQA , VCR 等 , 并且缺乏一个统一的评测基准让研究人员可以全面评测自己的模型在不同场景以及不同任务类型的表现 。 当前中文领域的多模态公开数据集和榜单更是乏善可陈 。 考虑到中文多模态领域的蓬勃发展 , 达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准 MUGE , 拥有当前最大规模的中文多模态评测数据集 , 覆盖多种类型的任务 , 包括图文描述、基于文本的图像生成、跨模态检索等 , 对模型展开了全方位的评测 , 帮助研究人员对自己的模型得到更好的理解 。
MUGE 介绍
MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark , 是达摩院联合浙江大学、阿里云天池平台共同发布的多模态数据集 , 中国计算机学会计算机视觉专委会协助 , 旨在推动多模态领域的发展 , 尤其预训练和下游任务应用等 。 首期主要开放中文多模态相关下游任务数据集和评测榜单 , 旨在帮助中文多模态研究人员全方位评估算法模型 。 MUGE 将实现多场景多任务的覆盖 , 其中包括理解类任务 , 如跨模态检索、跨模态分类等 , 以及生成类任务 , 如图文描述、基于文本的图像生成等 , 研究人员能够从理解能力和生成能力两大角度去评估算法模型 。 首期开放了包括了如下 3 个任务:
E-Commerce IC(Image Caption)
图像描述生成是一项经典的多模态任务 , 任务目标是根据一张图像生成相应的文字描述 , 要求生成的描述须如实反映图中的物体以及关键细节 。 电商领域有着众多的商品图片 , 将图像描述技术应用于电商领域 , 为每个商品生成一段富含吸引力的描述 , 对于吸引用户的点击、提高转化率有着重要的意义 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。