数字经济时代,数据资源已成为最主要的生产要素之一。当前,ChatGPT等AI大模型成为热点话题,作为AI核心要素,算法、算力、数据相互影响、相互支撑,其中,场景是最核心的数据来源。为探索挖掘数据资源在各领域的创新应用和开发,促进优质数据应用场景、解决方案的落地实践,2023中国国际大数据产业博览会(以下简称“数博会”)创新举办“数据场景应用创新大赛”。
当前,我国数据要素市场发展尚处于初级阶段,数据产业链水平不高,加快数据产业化应用模式的探索创新更为紧迫。作为大赛的主办方,贵阳大数据交易所希望通过举办“数据场景应用创新大赛”,带动大数据与各行业场景应用深度融合。本次大赛不仅是选手展示自我的平台,也是大数据领域群体智慧的创意“蓄水池”。在赛事激励上,大赛设置丰厚现金奖项,在挖掘优秀创新创业团队和项目基础上提供产业政策扶持、高价值数据资源使用权益与创投基金的投资机会,帮助其实现快速发展。
在赛道设置上,大赛共设置条数据、图片、方案三条赛道四个赛题,涵盖气象、清洁能源、交通、电力等重点领域算法算力应用场景打造,并以全国首个“气象数据专区”“电力数据专区”产品及数据集设置赛道,旨在挖掘数据场景应用痛点难点,推进数据资源开发利用,培育数字经济新模式新业态。
大赛提供了海量的数据资源和技术支持,包括数据清洗、预处理、建模、预测等,以便参赛者能够充分发挥创新能力和实践能力。例如图片赛道旨在针对城市道路和社区环境中的垃圾暴露现象进行感知发现;交通赛道立足高速公路货车安全行驶,对高速公路行驶的非营业货车进行安全评分;电力赛题结合电力、移动、GPS数据,实现充电桩耗电量预测,帮助相关企业预估收益实现参考价值;气象赛道围绕气象数据安全流通主题,探索气象数据合规、安全、高效的流通交易方案,以实现气象数据的商业价值。
赛题技术评审负责人,北京易华录信息技术股份有限公司数据治理事业部高级算法工程师郭曼介绍到:“目前大赛已进入决赛阶段,选手们正在积极筹备最终的决赛作品。在比赛中,选手们展现了对算法的理解和研究,也展示了数据处理和模型预测等方面能力和水平,许多新颖的算法结构和方法令我们耳目一新,取得了较好的成绩。希望各参赛团队能发挥出最优水平,全面展示作品的优势。也希望通过本次大赛能够挖掘优质的场景应用解决方案,持续赋能城市以及数据要素市场发展。”
作为全国第一家以大数据命名的交易所,贵阳大数据交易所在全国率先探索数据流通交易价值和交易模式,充分将先行先试优势转化为领先优势,承担流通交易制度规则制定、市场主体登记、数据要素登记确权、数据交易服务等职能,支撑数据、算力、算法等多元的数据产品交易。数据显示,截至目前,贵阳大数据交易所已累计集聚数据商584家,上架数据产品856个,累计交易额已超过10亿元。
与此同时,贵阳大数据交易所还将在2023数博会大会期间组织举办“数据要素流通交易成果”主题展,主题展将在2023数博会核心展区“东数西算”馆展出,并为参展企业提供丰富的企业权益,搭建成果转化和市场需求的桥梁,加速“一会一所”(数博会、贵阳大数据交易所)成果转化。
提供持续的利好服务并非“偶然”,事实上,贵阳大数据交易所希望以大赛为媒介,“以赛为媒、以赛聚才、以赛促用”,并通过持续不断开展各类活动,吸引各类业务模式创新、发展前景良好、具有鲜明示范意义的创新主体和企业共同相约“数博”,共同加速技术创新,挖掘数据场景的应用需求和潜力,助力“数字中国”蓬勃发展。
接下来,贵阳大数据交易所将紧扣赛事进程,围绕“畅享数据金矿,争夺百万奖池,海量基金助力,赋能无限场景”口号,持续举办更多活动,积极调动社会力量广泛参与,进一步提升大赛影响力。敬请关注!
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。