近日,阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布,推出了融合了丰富电商场景知识的CLIP模型,在电商文图检索效果上刷新了SOTA结果,并且将上述模型免费开源,贡献给开源社区。
CLIP(Contrastive Language-Image Pre-training)是一种经典的文图跨模态检索模型,它在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能力。EasyNLP借鉴CLIP的轻量化、易迁移的预训练架构,构建基于CLIP包含图像和文本Encoder两部分的双流模型,同时基于商品数据,以优化电商场景的文图检索优化。
Fashion-Gen数据集是一个大规模的时尚场景的图文数据集,以Fashion-Gen数据集为例,EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en这两个模型在Fashion-Gen数据集上进行了20个epoch的微调。实验结果表明,相比于现公布的SOTA模型(CommerceMM),电商CLIP-large模型在文到图和图到文的检索结果上均有显著提升,评测指标最高提升了8.7~15个百分点。
除此之外,电商base模型在文到图与CommerceMM相当检索结果下,使用了更少的参数量。由此可见,电商CLIP无论在large还是base图像Encoder的设置下,都取得了有竞争力的电商场景跨模态检索能力。
文到图检索评测结果
图到文检索评测结果
目前,电商CLIP可在EasyNLP中直接安装使用,在未来,EasyNLP框架会集成更多NLP的多模态的知识模型,覆盖各个常见领域和任务,同时也将集成更多SOTA模型(特别是中文模型),来支持各种NLP和多模态任务,共建NLP和多模态算法库。
Github地址:https://github.com/alibaba/EasyNLP
好文章,需要你的鼓励
本文探讨了利用人工智能构建去中心化互联网的可能性与挑战,强调理解背后哲学思想的重要性。文章引用 Abhishek Singh 的演讲,讨论了隐私、验证、激励、编排和用户体验的难题,并介绍了 NANDA(Networked Agents and Decentralized AI)的概念,认为去中心化模式将释放数据和计算资源,推动创新,实现科技普惠。
OpenAI CEO Sam Altman 描绘了订阅式 AI 平台的愿景,计划整合 SDK、API 及“界面”,通过不断迭代打造能整合个人全生活数据的智能模型,释放巨大财富潜力。
Zerve AI Ltd. 推出一款多代理系统,将 AI 代理从代码助手升级为全流程协作者,覆盖规划、基础设施部署、构建与发布,并内置分布式计算引擎及 App Builder,加速企业级 AI 产品开发。
文章基于九国3700余位IT决策者调研数据,揭示企业在生成式AI应用过程中在预算分配、领导任命、人才培养及变革管理等方面的趋势与挑战。