12月7日,人工智能自然语言处理领域的顶级国际会议 EMNLP 2022 在阿布扎比开幕。EMNLP 聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次会议上,由阿里云机器学习平台 PAI 主导联合阿里巴巴达摩院 NLP 团队、华东师范大学高明教授团队在小样本学习方向的研究有3篇论文入选。
此次入选意味着阿里云机器学习平台 PAI 自研的自然语言处理算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
预训练语言模型规模的扩大,带来这一类模型在自然语言理解等相关任务效果的不断提升。然而,这些模型的参数空间比较大,如果在下游任务上直接对这些模型进行微调,为了达到较好的模型泛化性,需要较多的训练数据。小样本学习技术能充分利用预训练过程中模型获得的知识,在给定小训练集上训练得到精度较高的模型。本次阿里云机器学习平台 PAI 共有 3 篇小样本学习相关论文入选,简述如下。
传统的机器阅读理解任务通常需要大量的标注数据来微调模型(例如 BERT),这一任务通常需要采用序列标注或指针网络的方法,获得答案在给定文章的区间。然而,这种方法需要重头开始学习 Preduction Head 的参数,在小样本场景下容易过拟合。最近 Prompt-Tuning 相关方法的提出缓解了预训练语言模型在低资源场景下的过拟合问题。受到这个启发,我们将抽取式阅读理解转换为基于 BERT 的生成任务。我们提出的 KECP(Knowledge Enhanced Contrastive Prompt-tuning)模型综合利用了模型表示的知识增强和对比学习技术,提升了小样本学习场景下的机器阅读理解准确度,模型架构如下图。实验结果可以证明,KECP 在一些常用的机器阅读理解数据集上,在只有 16 个标注的训练样本情况下,取得了比先前提出的模型更好的精度。
命名实体识别是 NLP 领域中非常常见的任务,对于这一任务,预训练语言模型的 Fine-tune 需要一定数量的语料来学习 Token 与 Label(例如人名、地名)之间的依赖关系。但是在实际应用中,标注数据资源比较稀缺,传统的序列标注方法很难达到较好的效果,因为其需要解决实体识别中的标签依赖(Label Depnedency)关系,同时也无法应对实体嵌套(Nested Entity)问题。因此,我们研究一种基于 Span 和元学习的小样本实体识别技术 SpanProto,特别地,我们关注于解决 N-way K-shot 的实体识别场景。SpanProto 采用两阶段方法,即将实体识别任务分解为两个阶段,分别是 Span Extraction 和 Mention Classification,模型框架图如下所示。
在 Span Extraction 模块中,SpanProto 使用与类别无关的 Span 抽取器,抽取出可能的命名区间。在 Mention Classification 模块中,SpanProto 采用 Prototypical Learning 给每个 Span 分配标签;与此同时,我们考虑到命名实体识别的 False Positive 问题,即存在一些抽取的 Span 在当前 Episode 内没有合适的类别可以分配的情况。为了验证 SpanProto 算法的有效性,我们在 Few-NERD 这一标准评测数据集上进行了测试,效果证明 SpanProto 对精度提升明显。
基于提示微调(Prompt Tuning)的小样本学习技术能充分利用预训练过程中模型获得的知识,在给定小训练集上训练得到精度较高的模型。然而,在小样本学习场景下,训练数据的有限性仍然对模型的准确度造成一定的制约。因此,如果可以在小样本学习阶段,有效利用其它跨任务的数据集,可以进一步提升模型的精度。跨任务小样本学习算法 UPT(Unified Prompt Tuning)是一种统一的学习范式,可以将各种下游任务和预训练任务统一成 POV(Prompt-Options-Verbalizer)的形式,使得模型可以学习利用Prompt 解决各种 NLP 任务,UPT 的任务构造形式如下所示。
无论是单句分类任务,还有双句匹配任务,亦或是预训练阶段的自监督学习任务,UPT 可以将他们转化成一种统一的范式进行学习。这种学习方式兼顾了经典的小样本学习算法的优势,又在学习过程中引入了“元学习”(Meta Learning)的思想,大大提升了模型对下游任务的泛化性,缓解了其在小样本学习阶段遇到的过拟合问题。当我们训练得到这一 Meta Learner 之后,我们可以复用先前的算法,对 Meta Learner 进行 Few-shot Fine-tuning。我们在多个 GLUE 和 SuperGLUE 数据集上验证了 UPT 的实验效果,实验结果表明,我们提出的自研算法 UPT 具有明显精度提升。
为了更好地服务开源社区,上述三个算法的源代码即将贡献在自然语言处理算法框架 EasyNLP 中,欢迎 NLP 从业人员和研究者使用。EasyNLP 是阿里云机器学习 PAI 团队基于 PyTorch 开发的易用且丰富的中文 NLP 算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。由于跨模态理解需求的不断增加,EasyNLP 也将支持各种跨模态模型,特别是中文领域的跨模态模型,推向开源社区,希望能够服务更多的 NLP 和多模态算法开发者和研究者,也希望和社区一起推动 NLP/多模态技术的发展和模型落地。机器学习平台 PAI 面向企业客户级开发者,提供轻量化、高性价比的云原生机器学习,涵盖 PAI-DSW 交互式建模、PAI-Designer 可视化建模、PAI-DLC 分布式训练到 PAI-EAS 模型在线部署的全流程。
Github地址:https://github.com/alibaba/EasyNLP
1. KECP: Knowledge-Enhanced Contrastive Prompting for Few-shot Extractive Question Answering
论文作者:王嘉宁、汪诚愚、谭传奇、邱明辉、黄松芳、黄俊、高明
2.SpanProto: A Two-stage Span-based Prototypical Network For Few-shot Named Entity Recognition
论文作者:王嘉宁、汪诚愚、邱明辉、石秋慧、王洪彬、黄俊、高明
3.Towards Unified Prompt Tuning for Few-shot Text Classification
论文作者:王嘉宁、汪诚愚、罗福莉、谭传奇、邱明辉、杨非、石秋慧、黄松芳、高明
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。