过去的健康大数据大多是信息孤岛,如何实现数据合法合规地共享应用?
近日,国家健康医疗大数据研究院、微众银行、华链医疗科技有限公司三方协作,共同为国家健康医疗大数据科技创新应用平台(下称“科创平台”)引入微众银行场景式隐私保护解决方案WeDPR,应用WeDPR隐私计算技术实现在保护数据隐私安全的前提下,开展医疗数据分析研究。
国家健康医疗大数据研究院是科创平台的技术支撑方,也是国家健康医疗大数据中心(北方)的重要组成部分,集“政、产、学、研、用”为一体,专注健康医疗大数据研究与转化。华链医疗科技有限公司是科创平台协作端的软件服务方之一,致力于构建领先的医学科学数据协作网,专注医学研究和数据应用解决方案。
引入隐私计算技术,科创平台构筑协作新生态
在医疗领域,疾病数据合法合规共享是亟待解决的难题。一方面,当一家医院对患者实施治疗后,若患者转到其他医院就医,该医院就无法判断诊疗手段是否有效。另一方面,医疗数据属于个人敏感数据,一旦被泄露或被恶意使用,将产生严重的人格尊严、人身、财产安全风险。所以,如何在共享使用的同时做好隐私保护问题是重中之重。隐私计算作为一种可行的技术手段,可在保护数据隐私安全的前提下,实现医疗数据分析研究。
基于WeDPR,科创平台集成联合统计、联合建模、联合预测、匿踪查询、隐私求交等隐私计算能力,构建了一套与外部医院、保险公司、体检中心等医疗机构进行多中心科研的隐私协作机制。各方的原文数据均无需出库,通过WeDPR进行多方大数据隐私计算,实现应对多场景规模化的医疗数据再利用。
以多中心科研中的疾病分析场景为例,科创平台设计了集隐私查询、隐私统计、隐私建模、隐私预测功能于一体的解决方案,助力医院对患者信息的跟踪维护、对诊疗方案的升级、对诊疗效果的预判。
图 健康医疗大数据全栈式智能工程系统
未来,科创平台将进一步提升医疗机构重点疾病的研究水平和防治能力,推动多中心大数据临床试验BRCT、现实世界研究BRWS、精准医学研究和智慧医疗的发展。
坚持安全可控,微众银行提供隐私计算技术支持
作为国内首家数字银行,微众银行自成立以来,一直以科技为核心驱动力,在区块链、安全多方计算等方面积极开展研究和应用,融合构建隐私计算核心能力。
此次科创平台引入微众银行WeDPR的隐私计算技术,是微众银行应用国产安全可控的数字技术,助力构建国家级健康医疗基础设施、践行ESG服务社会民生的重要实践。
图 WeDPR隐私计算解决方案框架
作为场景式隐私保护解决方案,WeDPR融合了区块链与安全多方计算技术,基于国产开源区块链底层平台FISCO BCOS构建可信协作网络,引入多种安全多方计算协议解决数据协作中的隐私保护问题,实现多方数据的安全可信协作,释放数据生产力。
WeDPR包含了联合报表、联合计算、隐私求交、隐私查询、联合建模和预测等功能需求,支持多方平等、安全地参与隐私数据协作,能够支撑各类商业应用场景灵活拓展,可广泛应用于金融、政务、公共健康、数字权益等领域,有效促进隐私数据有序流通,实现跨域价值融合创新。
凭借领先的技术优势,微众银行在隐私保护领域的攻关成果广泛获得权威机构认可:首批通过中国信息通信研究院“区块链辅助的隐私计算产品”权威评测,安全性、功能、性能全面符合国家权威测评标准;入选中国信息通信研究院可信区块链2021年度高价值案例;入选“全球隐私计算技术发明专利排行榜(TOP100),在所有入选榜单的银行当中名列全球第一。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。