最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准( 三 )


下面是两个样例:
例子 1:

  • 输入(Query):纯棉碎花吊带裙
  • 输出:商品图片
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

例子 2:
  • 输入(Query):北欧轻奢边几
  • 输出:商品图片
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

MUGE 挑战榜
MUGE 的提出旨在解决当前中文多模态领域下游任务数据集匮乏的问题 , 并且为广大研究者提供平台和评测基准去衡量算法模型的有效性 。 此外 , 相较于传统榜单 , MUGE 的覆盖面更全 , 涵盖理解和生成两大类任务 , 并开创性地将基于文本的图像生成纳入其中 。 未来 , MUGE 也会持续地扩增更多的多模态任务及数据规模 , 进一步为研究人员和开发者提升算法模型效果而提供支持 。
MUGE 目前已经在阿里云天池平台开放 , 感兴趣的研究者们可以访问如下链接进入 MUGE leaderboard 参与挑战 , 平台会在每个月的月底评出榜单 Top8 选手 , 并赠予天池定制礼品!
MUGE 挑战榜地址:https://tianchi.aliyun.com/muge
参考资料
[1] Lin, J., Men, R., Yang, A., Zhou, C., Ding, M., Zhang, Y., Wang, P., Wang, A., Jiang, L., Jia, X., Zhang, J., Zhang, J., Zou, X., Li, Z., Deng, X., Liu, J., Xue, J., Zhou H., Ma, J., Yu, J., Li, Y., Zhou, J., Tang, J., & Yang, H. (2021). M6: A chinese multimodal pretrainer. Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
[2] Yang, A., Lin, J., Men, R., Zhou, C., Jiang, L., Jia, X., Wang, A., Zhang, J., Wang, J., Li, Y., Zhang, D., Lin, W., Qu, L., Zhou, J., & Yang, H. (2021). M6-T: Exploring Sparse Expert Models and Beyond. ArXiv, abs/2105.15082.
[3] Lin, J., Yang, A., Bai, J., Zhou, C., Jiang, L., Jia, X., ... & Yang, H. (2021). M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining. arXiv preprint arXiv:2110.03888.
[4] Zhang, Z., Ma, J., Zhou, C., Men, R., Li, Z., Ding, M., ... & Yang, H. (2021). M6-ufc: Unifying multi-modal controls for conditional image synthesis. NeurIPS 2021.
[5] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325.
[6] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.
【最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准】[7] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。