最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准( 二 )


本次发布 E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等众多商品类目 , 所有数据均来源于真实的淘宝电商场景 。 其中 , 商品对应的文字描述由商家根据商品特性来撰写 , 不同文案间的风格差异很大 , 这给图像描述的生成带来了很多挑战 。 E-Commerce IC 共包含 5w 条训练数据和 5k 条验证集数据 , 同时提供 1w 张图片用于在线评测 , 是目前业界最大的中文电商 Caption 数据集 。
下面是两个样例:
例子 1:

  • 输入(商品图片):
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

  • 输出(商品文案描述):使用原始北欧风格 , 崇尚自然 , 以木色、黑色、白色作为整体色调 , 给人舒适宁静的感觉 , 轻松就餐 , 才能留住好食光 , 在极简风的北欧餐厅中 , 尽情享受美食 。
例子 2:
  • 输入(商品图片):
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

  • 输出(商品文案描述):西装印花裙的两件套 , 知性中又有带着优雅洒脱 。 雅致的印花裙邂逅西服 , 轻松打造精致的职场女神 。 脱掉外套依然美丽优雅 , 不失为明智的穿搭 。 V 领的设计更显女性的性感魅力 。 如行走的时装画册精致 , 有品位更具有风度 。
E-Commerce T2I(Text to Image):
文本到图像生成是一项具有挑战性的任务 , 要求模型具有在跨模态理解的基础上生成图像的能力 。 任务目标是根据一段文本描述 , 生成符合相应描述的图像 , 同时要求图像清晰且逼真 。 电商领域有着众多的商品图片 , 将文本到图像生成技术应用于电商领域 , 对于商品上新、设计、分发 , 减少商家运营成本 , 提高用户体验有着重要的意义 。
本次发布的 ECommerce-T2I 数据集涵盖了服装、饰品、化妆品内的多个商品类目 , 所有数据均来源于真实淘宝电商场景 。 整个数据集由训练集、验证集和测试集组成 。 其中训练集有 9w 张图片 , 验证集和测试集各有 5k 张 。 此外 , 本数据集内的图片均为白底图 , 选手无需额外的精力放在背景生成上 , 主要考查模型对商品文本的理解和生成能力 , 提高物体的生成质量 。
下面是两个样例:
例子一:
  • 输入(文本):绵羊毛商务休闲西服套装
  • 输出(生成图像):
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

例子二:
  • 输入(文本):减震透气跑鞋
  • 输出(生成图像):
最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

Multimodal Retrieval Dataset
多模态检索评价模型进行图文理解和匹配的能力 , 是电商场景中满足用户需求、促成点击交易不可缺少的一环 。 在此次任务中 , 我们准备了来自于淘宝电商平台的真实搜索 query 及商品图 , 要求模型从给定的商品池中检索出与搜索 query 相匹配的商品(样例如下图) 。 为了更好评价模型跨模态理解的效果 , 我们此次不公开商品的标题以及其他信息 , 要求模型仅基于商品图片进行检索召回 , 具有一定的挑战性 。
此次公开的电商图文检索数据集由训练集、验证集和测试集组成 , 其中训练集包含 25w 搜索 query - 商品图构成的图文对 , 涵盖约 12w 商品图片 。 对于验证集和测试集 , 我们各准备了 5k 搜索 query 和 3w 候选商品图片 。 数据集类目涵盖广泛 , 涉及服装、家居、电子、化妆品等多个领域 , 是目前最大的中文全领域电商图文检索数据集 , 对模型的泛化能力提出了考验 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。