“今天,很多行业对图像图形的处理有了更加多元化的需求,这也是扫描产品在商业层面的全新机会。”近日,在“AIGC应用助力企业经营提效”主题沙龙上,阿里智能信息事业群夸克视觉技术负责人黄锐华表示,大模型技术运用在扫描场景后已经发生两方面变化,一方面它能升级多项扫描技术的核心能力,给企业提供更加精准的扫描服务。另一方面,大模型开辟了更多扫描场景,给日常办公带来更多效率上的提升。
(阿里智能信息事业群夸克视觉技术负责人黄锐华)
目前,OCR技术仍然面对着诸多挑战,比如在面对手写体、小语种和复杂公式等情况下,传统扫描技术很难去完整地理解和还原内容。大模型出现后,扫描产品可以根据内容的语义和特征,通过大量学习去完善和创造内容,进而呈现出一份更加完美的扫描结果。
黄锐华认为,手机扫描产品所具备的便利性、云端处理能力和个性化编辑能力,已经让手机扫描效果超过传统扫描仪。比如扫描一份文档,过去要先把图片先转成Word才能进行编辑,这个过程中不仅操作复杂而且必然会带来精度损失。夸克扫描王选择了技术难度更大但用户体感更好的方式,完成扫描后在图片上直接编辑文字,这也是扫描产品技术创新的全新突破。
有行业专家指出,随着大模型在多模态和垂直领域的不断深入,今年会是产业升级的元年。黄锐华表示,夸克扫描王基于自研大模型,全面升级扫描的多项能力和体验,围绕文档智能、扫描与图像处理等核心场景,构建面向企业的全新服务能力。
去年8月,夸克扫描王率先在扫描行业落地大模型技术应用。近期,夸克扫描王再次迎来全新升级,在智能排版、原图文档化编辑、图像智能修复等方面进一步加大了创新能力投入力度。
根据《国家移动互联网软件产品质量检验检测中心》的评测报告显示,在公式识别、复杂排版(分段)识别、复杂排版(缩进)等扫描难度较高的复杂场景中,夸克扫描王识别准确率分别拿到了86.92%、99.72%和93.73%的高分,大幅领先行业平均水平。
据悉,夸克扫描王的多项技术能力已经应用在国内电商、海外票据、医疗健康以及教育学习等多个领域中。黄锐华表示,当企业开始拥抱大模型技术以及AIGC应用逐渐成熟,整个市场会迎来新一轮的高速发展。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。