训练复杂的 AI 模型取决于大型和高质量数据集的使用。在企业中,这些数据可能分布在不同的云,应用程序孤岛,不同国家和子公司中的数据中心,因此很难进行合并和分析。不同位置的数据也可能要遵守不同的法规和隐私要求。将数据集中到单个存储库中进行培训通常是不可能或不实际的。解决此问题的一种方法是联邦学习,这是一种分布式机器学习过程,其中,不同的各方协作以共同训练机器学习模型,而无需与其他各方共享训练数据。
联邦学习适合各相关方希望利用其数据而不共享其数据的任何情况。例如,某个航空联盟可能希望针对全球疫情如何影响航班延误进行建模。联邦中的每个参与方都可以使用其数据对公共模型进行训练,而无需移动或共享其数据,从而保留数据隐私和安全性并提高实用性。可以部署生成的模型,以针对评分数据提供更准确的预测,从而为联盟的每个成员提供更佳的结果和洞察。
IBM 联邦学习侧重于企业场景,例如集成数据孤岛,处理客户隐私,法规遵从性以及不同位置的大量数据。在企业环境中,联邦学习过程的参与者通常是数据中心,来自不同提供商的云实例或托管来自现场机器,卡车或其他设备的数据的边缘服务。IBM 联邦学习提供了一种可满足企业网络和安全要求的架构,并和现有框架如 Keras,Tensorflow,SK Learn,RLLib 等集成。
IBM 联邦学习提供了对不同模型类型,神经网络,SVM,决策树,线性以及逻辑回归器和分类器的开箱即用的支持,以及实现它们的许多机器学习库。神经网络通常在本地进行训练,并且聚合器执行模型融合,与本地模型训练相比,这通常是一种更轻量级的操作。
IBM Cloud Pak for Data 的联邦学习技术可以跨多个分散的边缘设备或 具有本地数据集的服务器训练算法,而无需传输它们。数据保持本地状态,并允许执行深度学习算法,同时保留隐私和安全性。这种方法不同于传统的集中式机器学习技术,在传统的集中式机器学习技术中,所有本地数据集均上载到一台服务器,并且在此聚合数据集上执行深度学习 ML 算法。联邦学习使多个参与者可以在不共享数据的情况下构建通用的,健壮的机器学习模型,从而保持数据隐私,数据安全性,数据访问权限和对异构数据的访问。国防,电信,物联网,医疗保健,制造业,零售业和其他许多行业都 使用联邦学习,并从其 AI / ML 中获得可观的附加价值。
上图显示联合方如何发送数据以对公共模型进行训练,而无需相互共享数据。聚集器管理对模型的更新。给定查询 (Q),每个相关方基于其自己的本地数据 (D) 计算一个回复 (R),并将其发送回聚集器,其中各个结果融合在一起作为单个 Federated Learning 模型 (F)。通过 Federated Learning,可以:
从联邦学习解决方案的总价值(总收益–总成本)来看:
1. 总拥有成本(TCO):典型成本包括:硬件和部署的一次性购置成本,以及软件,维护和运营的年度成本。对于没有联邦学习的情况,需要考虑与将数据传输到中央存储库相关的成本。
2. 提高生产率:数据科学家,数据工程师,应用程序开发人员和组织的生产率提高的价值,还应考虑由于联邦学习而与其他异构数据的可用性相关的价值。联邦学习使移动电话可以协作学习共享的预测模型,同时将所有训练数据保留在设备上,从而将进行机器学习的能力与将数据存储在云中的需求脱钩,并且需要考虑与此项创新相关的价值适用案例。
3. 收入/利润:联邦学习的好处是可以访问大量数据,从而提高了机器学习性能,同时尊重数据所有权和隐私。更快的价值和更好的绩效可以带来更大的创新和更好的决策能力,从而刺激增长,增加收入并提高利润。
4. 减轻风险:联邦学习使多个参与者可以建立通用的,健壮的机器学习模型而无需共享数据,从而使用户能够解决关键问题,例如数据隐私,数据安全性,数据访问权限,这也可以改善治理和合规性。
如上所述,联邦学习通过以下方式扩大了 IBM Cloud Pak for Data 的价值:
好文章,需要你的鼓励
印尼就业平台Pintarnya宣布完成1670万美元A轮融资,由Square Peg领投。该平台成立于2022年,专注服务蓝领和非正规就业者,提供求职匹配和金融服务。目前拥有超过1000万求职用户和4万家雇主,年收入增长近五倍,预计年底实现盈亏平衡。新资金将用于加强平台技术和扩大金融服务。
南洋理工大学研究团队开发的Life2vec系统能够通过分析个人生活数据预测未来人生轨迹,在收入和职业预测上达到78-85%准确率。该系统使用丹麦600万人的真实数据,采用类似GPT的AI技术,揭示了教育投资、社交网络、地理位置等因素对人生发展的深层影响规律,为政策制定和个人规划提供科学依据。
YouTube Music庆祝十周年,推出多项新功能与Spotify竞争。新增"品味匹配"播放列表功能,可合并多用户的音乐偏好,类似Spotify Blend。应用还将通知用户即将发布的音乐、周边和演出信息,并与Bandsintown合作帮助粉丝发现演唱会。此外,用户可在专辑和播放列表上评论,获得忠诚度徽章。YouTube Music目前拥有超过3亿首曲目和40亿个用户生成播放列表,订阅用户已超过1.25亿。
中国科学家成功将扩散模型应用于语言生成,开发出名为LLaDA的创新AI系统。与ChatGPT等传统按序生成的模型不同,LLaDA采用"填空"方式工作,能同时考虑文本前后信息。在80亿参数规模下,LLaDA在多项测试中表现优异,特别是在逆向推理任务上超越GPT-4o,为AI语言模型发展开辟了全新技术路径。