训练复杂的 AI 模型取决于大型和高质量数据集的使用。在企业中,这些数据可能分布在不同的云,应用程序孤岛,不同国家和子公司中的数据中心,因此很难进行合并和分析。不同位置的数据也可能要遵守不同的法规和隐私要求。将数据集中到单个存储库中进行培训通常是不可能或不实际的。解决此问题的一种方法是联邦学习,这是一种分布式机器学习过程,其中,不同的各方协作以共同训练机器学习模型,而无需与其他各方共享训练数据。
联邦学习适合各相关方希望利用其数据而不共享其数据的任何情况。例如,某个航空联盟可能希望针对全球疫情如何影响航班延误进行建模。联邦中的每个参与方都可以使用其数据对公共模型进行训练,而无需移动或共享其数据,从而保留数据隐私和安全性并提高实用性。可以部署生成的模型,以针对评分数据提供更准确的预测,从而为联盟的每个成员提供更佳的结果和洞察。
IBM 联邦学习侧重于企业场景,例如集成数据孤岛,处理客户隐私,法规遵从性以及不同位置的大量数据。在企业环境中,联邦学习过程的参与者通常是数据中心,来自不同提供商的云实例或托管来自现场机器,卡车或其他设备的数据的边缘服务。IBM 联邦学习提供了一种可满足企业网络和安全要求的架构,并和现有框架如 Keras,Tensorflow,SK Learn,RLLib 等集成。
IBM 联邦学习提供了对不同模型类型,神经网络,SVM,决策树,线性以及逻辑回归器和分类器的开箱即用的支持,以及实现它们的许多机器学习库。神经网络通常在本地进行训练,并且聚合器执行模型融合,与本地模型训练相比,这通常是一种更轻量级的操作。
IBM Cloud Pak for Data 的联邦学习技术可以跨多个分散的边缘设备或 具有本地数据集的服务器训练算法,而无需传输它们。数据保持本地状态,并允许执行深度学习算法,同时保留隐私和安全性。这种方法不同于传统的集中式机器学习技术,在传统的集中式机器学习技术中,所有本地数据集均上载到一台服务器,并且在此聚合数据集上执行深度学习 ML 算法。联邦学习使多个参与者可以在不共享数据的情况下构建通用的,健壮的机器学习模型,从而保持数据隐私,数据安全性,数据访问权限和对异构数据的访问。国防,电信,物联网,医疗保健,制造业,零售业和其他许多行业都 使用联邦学习,并从其 AI / ML 中获得可观的附加价值。
上图显示联合方如何发送数据以对公共模型进行训练,而无需相互共享数据。聚集器管理对模型的更新。给定查询 (Q),每个相关方基于其自己的本地数据 (D) 计算一个回复 (R),并将其发送回聚集器,其中各个结果融合在一起作为单个 Federated Learning 模型 (F)。通过 Federated Learning,可以:
从联邦学习解决方案的总价值(总收益–总成本)来看:
1. 总拥有成本(TCO):典型成本包括:硬件和部署的一次性购置成本,以及软件,维护和运营的年度成本。对于没有联邦学习的情况,需要考虑与将数据传输到中央存储库相关的成本。
2. 提高生产率:数据科学家,数据工程师,应用程序开发人员和组织的生产率提高的价值,还应考虑由于联邦学习而与其他异构数据的可用性相关的价值。联邦学习使移动电话可以协作学习共享的预测模型,同时将所有训练数据保留在设备上,从而将进行机器学习的能力与将数据存储在云中的需求脱钩,并且需要考虑与此项创新相关的价值适用案例。
3. 收入/利润:联邦学习的好处是可以访问大量数据,从而提高了机器学习性能,同时尊重数据所有权和隐私。更快的价值和更好的绩效可以带来更大的创新和更好的决策能力,从而刺激增长,增加收入并提高利润。
4. 减轻风险:联邦学习使多个参与者可以建立通用的,健壮的机器学习模型而无需共享数据,从而使用户能够解决关键问题,例如数据隐私,数据安全性,数据访问权限,这也可以改善治理和合规性。
如上所述,联邦学习通过以下方式扩大了 IBM Cloud Pak for Data 的价值:
好文章,需要你的鼓励
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。