/

阿里云 EasyNLP 跨模态学习能力再升级，电商文图检索效果刷新SOTA

近日，阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布，推出了融合了丰富电商场景知识的CLIP模型，在电商文图检索效果上刷新了SOTA结果，并且将上述模型免费开源，贡献给开源社区。

近日，阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布，推出了融合了丰富电商场景知识的CLIP模型，在电商文图检索效果上刷新了SOTA结果，并且将上述模型免费开源，贡献给开源社区。

CLIP（Contrastive Language-Image Pre-training）是一种经典的文图跨模态检索模型，它在大规模图文数据集上进行了对比学习预训练，具有很强的文图跨模态表征学习能力。EasyNLP借鉴CLIP的轻量化、易迁移的预训练架构，构建基于CLIP包含图像和文本Encoder两部分的双流模型，同时基于商品数据，以优化电商场景的文图检索优化。

Fashion-Gen数据集是一个大规模的时尚场景的图文数据集，以Fashion-Gen数据集为例，EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en这两个模型在Fashion-Gen数据集上进行了20个epoch的微调。实验结果表明，相比于现公布的SOTA模型（CommerceMM），电商CLIP-large模型在文到图和图到文的检索结果上均有显著提升，评测指标最高提升了8.7～15个百分点。

除此之外，电商base模型在文到图与CommerceMM相当检索结果下，使用了更少的参数量。由此可见，电商CLIP无论在large还是base图像Encoder的设置下，都取得了有竞争力的电商场景跨模态检索能力。

文到图检索评测结果

阿里云 EasyNLP 跨模态学习能力再升级，电商文图检索效果刷新SOTA

图到文检索评测结果

阿里云 EasyNLP 跨模态学习能力再升级，电商文图检索效果刷新SOTA

目前，电商CLIP可在EasyNLP中直接安装使用，在未来，EasyNLP框架会集成更多NLP的多模态的知识模型，覆盖各个常见领域和任务，同时也将集成更多SOTA模型（特别是中文模型），来支持各种NLP和多模态任务，共建NLP和多模态算法库。

Github地址：https://github.com/alibaba/EasyNLP

来源：业界供稿

阿里云

0赞

好文章，需要你的鼓励

推荐文章

苹果注重隐私的年龄验证方案可解决两大难题

人工智能

生物识别

隐私保护

2025-12-22

苹果注重隐私的年龄验证方案可解决两大难题

美国多州和部分国家要求特定应用进行年龄验证，澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄，而非各开发者单独验证。这将提升用户体验，用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势，该方案可扩展至Safari浏览器，为需要年龄验证的网站提供确认信息，而无需透露用户个人数据。

Meta AI团队首次破解多模态奖励模型评估难题，让AI既能看懂图片又能准确判断好坏

人工智能

多模态评估

奖励模型

2025-12-22

Meta AI团队首次破解多模态奖励模型评估难题，让AI既能看懂图片又能准确判断好坏

Meta AI首次发布多模态奖励评估基准MMRB2，专门评价AI同时处理文字和图像的能力。该基准包含四大任务类型共4000个专家标注样本，测试23个先进模型。结果显示最佳模型Gemini 3 Pro达75-80%准确率，仍低于人类90%水平。研究揭示AI评价存在视觉偏见等问题，为多模态AI发展提供重要参考标准。

Cursor通过收购Graphite继续扩张之路

人工智能

代码审查

企业收购

2025-12-22

Cursor通过收购Graphite继续扩张之路

AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义，将AI代码生成与AI代码审查工具相结合，可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元，近期频繁收购，上月收购技术招聘公司，今年7月还收购AI客户关系管理初创公司Koala的团队。

快手推出Kling-Omni：一个AI模型搞定所有视频制作需求

视频生成

多模态AI

统一视频制作平台

2025-12-22

快手推出Kling-Omni：一个AI模型搞定所有视频制作需求

快手推出的Kling-Omni是首个真正统一的AI视频制作系统，能够理解文字、图像、视频等多种输入方式，不仅可以生成视频，还能进行复杂编辑和推理。该系统通过三个核心模块的协作，实现了从创意理解到最终输出的全流程自动化，让普通用户也能制作专业水准的视频内容，代表了AI视频技术的重要突破。

2022

09/27

10:19

分享

点赞

最新文章

相关文章

邮件订阅

AI启示录

更多

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证