训练复杂的 AI 模型取决于大型和高质量数据集的使用。在企业中,这些数据可能分布在不同的云,应用程序孤岛,不同国家和子公司中的数据中心,因此很难进行合并和分析。不同位置的数据也可能要遵守不同的法规和隐私要求。将数据集中到单个存储库中进行培训通常是不可能或不实际的。解决此问题的一种方法是联邦学习,这是一种分布式机器学习过程,其中,不同的各方协作以共同训练机器学习模型,而无需与其他各方共享训练数据。
联邦学习适合各相关方希望利用其数据而不共享其数据的任何情况。例如,某个航空联盟可能希望针对全球疫情如何影响航班延误进行建模。联邦中的每个参与方都可以使用其数据对公共模型进行训练,而无需移动或共享其数据,从而保留数据隐私和安全性并提高实用性。可以部署生成的模型,以针对评分数据提供更准确的预测,从而为联盟的每个成员提供更佳的结果和洞察。
IBM 联邦学习侧重于企业场景,例如集成数据孤岛,处理客户隐私,法规遵从性以及不同位置的大量数据。在企业环境中,联邦学习过程的参与者通常是数据中心,来自不同提供商的云实例或托管来自现场机器,卡车或其他设备的数据的边缘服务。IBM 联邦学习提供了一种可满足企业网络和安全要求的架构,并和现有框架如 Keras,Tensorflow,SK Learn,RLLib 等集成。
IBM 联邦学习提供了对不同模型类型,神经网络,SVM,决策树,线性以及逻辑回归器和分类器的开箱即用的支持,以及实现它们的许多机器学习库。神经网络通常在本地进行训练,并且聚合器执行模型融合,与本地模型训练相比,这通常是一种更轻量级的操作。
IBM Cloud Pak for Data 的联邦学习技术可以跨多个分散的边缘设备或 具有本地数据集的服务器训练算法,而无需传输它们。数据保持本地状态,并允许执行深度学习算法,同时保留隐私和安全性。这种方法不同于传统的集中式机器学习技术,在传统的集中式机器学习技术中,所有本地数据集均上载到一台服务器,并且在此聚合数据集上执行深度学习 ML 算法。联邦学习使多个参与者可以在不共享数据的情况下构建通用的,健壮的机器学习模型,从而保持数据隐私,数据安全性,数据访问权限和对异构数据的访问。国防,电信,物联网,医疗保健,制造业,零售业和其他许多行业都 使用联邦学习,并从其 AI / ML 中获得可观的附加价值。
上图显示联合方如何发送数据以对公共模型进行训练,而无需相互共享数据。聚集器管理对模型的更新。给定查询 (Q),每个相关方基于其自己的本地数据 (D) 计算一个回复 (R),并将其发送回聚集器,其中各个结果融合在一起作为单个 Federated Learning 模型 (F)。通过 Federated Learning,可以:
从联邦学习解决方案的总价值(总收益–总成本)来看:
1. 总拥有成本(TCO):典型成本包括:硬件和部署的一次性购置成本,以及软件,维护和运营的年度成本。对于没有联邦学习的情况,需要考虑与将数据传输到中央存储库相关的成本。
2. 提高生产率:数据科学家,数据工程师,应用程序开发人员和组织的生产率提高的价值,还应考虑由于联邦学习而与其他异构数据的可用性相关的价值。联邦学习使移动电话可以协作学习共享的预测模型,同时将所有训练数据保留在设备上,从而将进行机器学习的能力与将数据存储在云中的需求脱钩,并且需要考虑与此项创新相关的价值适用案例。
3. 收入/利润:联邦学习的好处是可以访问大量数据,从而提高了机器学习性能,同时尊重数据所有权和隐私。更快的价值和更好的绩效可以带来更大的创新和更好的决策能力,从而刺激增长,增加收入并提高利润。
4. 减轻风险:联邦学习使多个参与者可以建立通用的,健壮的机器学习模型而无需共享数据,从而使用户能够解决关键问题,例如数据隐私,数据安全性,数据访问权限,这也可以改善治理和合规性。
如上所述,联邦学习通过以下方式扩大了 IBM Cloud Pak for Data 的价值:
好文章,需要你的鼓励
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中山大学团队针对OpenAI O1等长思考推理模型存在的"长度不和谐"问题,提出了O1-Pruner优化方法。该方法通过长度-和谐奖励机制和强化学习训练,成功将模型推理长度缩短30-40%,同时保持甚至提升准确率,显著降低了推理时间和计算成本,为高效AI推理提供了新的解决方案。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
上海AI实验室研究团队深入调查了12种先进视觉语言模型在自动驾驶场景中的真实表现,发现这些AI系统经常在缺乏真实视觉理解的情况下生成看似合理的驾驶解释。通过DriveBench测试平台的全面评估,研究揭示了现有评估方法的重大缺陷,并为开发更可靠的AI驾驶系统提供了重要指导。