近日,阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布,推出了融合了丰富电商场景知识的CLIP模型,在电商文图检索效果上刷新了SOTA结果,并且将上述模型免费开源,贡献给开源社区。
CLIP(Contrastive Language-Image Pre-training)是一种经典的文图跨模态检索模型,它在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能力。EasyNLP借鉴CLIP的轻量化、易迁移的预训练架构,构建基于CLIP包含图像和文本Encoder两部分的双流模型,同时基于商品数据,以优化电商场景的文图检索优化。
Fashion-Gen数据集是一个大规模的时尚场景的图文数据集,以Fashion-Gen数据集为例,EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en这两个模型在Fashion-Gen数据集上进行了20个epoch的微调。实验结果表明,相比于现公布的SOTA模型(CommerceMM),电商CLIP-large模型在文到图和图到文的检索结果上均有显著提升,评测指标最高提升了8.7~15个百分点。
除此之外,电商base模型在文到图与CommerceMM相当检索结果下,使用了更少的参数量。由此可见,电商CLIP无论在large还是base图像Encoder的设置下,都取得了有竞争力的电商场景跨模态检索能力。
文到图检索评测结果
图到文检索评测结果
目前,电商CLIP可在EasyNLP中直接安装使用,在未来,EasyNLP框架会集成更多NLP的多模态的知识模型,覆盖各个常见领域和任务,同时也将集成更多SOTA模型(特别是中文模型),来支持各种NLP和多模态任务,共建NLP和多模态算法库。
Github地址:https://github.com/alibaba/EasyNLP
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面