新一代ESS全新发布,攻克数据整合难题
专家介绍:王伯韬
真实经历引发的思考
2022年5月2日下午12:05 我收到了以下流调短信与电话:
[北京市疾控中心提示] 您好! 根据市卫健委通报的新冠疫情,经流行病学调查,您与感染者存在时空交集,有感染风险。请您及时向所在社区和单位报告....
此时,发现北京健康宝已弹窗,随后接到流调工作人员电话。
流调员:“请问您4月30日下午2点是否去过朝阳区xx商场,xx餐馆”
我:“稍等我看一下……,当时没有去过您提到的几个地点,但是去过几个街区之外的xx吃饭,不过有可能开车经过了您提到的地方”
流调员:“好的,那您去所在社区居委会报备,说明情况,持24小时核酸并签署承诺书,然后可以解除弹窗。”
疫情期间当我们的身边发现确诊病例,大家都希望看到这些人的行动轨迹,如果发生了时空关联,就会收到上面的信息和电话。目前,疫情防控已经变成了我们生活的一部分。大家都希望通过精准科学的方式找到疫情防控和正常生活的平衡点,但又谈何容易。我们可以从数据流向推测和分析事件的成因。然而极致的“精准”,需要数据量足够多,包括手机位置信息,流调人员的排查信息,现场流调信息等等。同时,数据量暴涨也是需要面对的问题。
其实,近年来各个行业的数据量都呈几何级增长。如今,随着传统业务转型,新时代业务云计算、大数据分析、人工智能等新一代应用的出现,非结构化数据并行文件存储给各行各业带来了诸多挑战。
一家人工智能芯片的企业于2017年流片量产了中国首款边缘AI芯片,2019年量产了中国首款车规级AI芯片,凭借30亿美金估值成为全球估值最高的AI芯片独角兽企业。然而,随着企业逐渐从初创企业走向成熟,其在数据存储、管理和调度等方面遇到了一些难题。
其中一个比较突出的问题是数据竖井。在发展初期,往往以项目方式组织资源和部署数据结构,很多项目各有数据集群,形成了一个个数据竖井,或说数据孤岛。对于需要“小步快跑”的初创企业而言,这种方式无可厚非,但随着企业规模扩大,这些相互独立的数据竖井就会给数据管理带来比较大的挑战。
从更大的层面看,他们也面临跨多云数据调度的难题。对于AI企业而言,提高模型训练效率是至关重要的,但训练效率的提高不仅仅依赖于计算资源,也离不开数据的及时调度。由于GPU资源分布在多个公有云上和本地,当GPU资源不断变化时,如何让数据也能快速地跟随变化随需调度,也成为企业在数据管理方面的一个核心需求。
此外,随着数据规模的快速增长,数据管理成本也与日俱增。之前是采用算存一体的方式,计算和存储在一个一体机上实现,随着数据规模增长,这种方案不仅会降低计算设备运行效率,而且成本也会高企不下,因此需要性价比更高的数据存储方案来支持企业的长远发展。
在医疗行业,信息化起步较早,在长期的发展过程中,各业务系统都针对初始单个业务模块的需求陆续建设了很多“烟囱工程“。此外,医疗行业对数据合规要求有其特殊性,门诊电子病历往往需要保留15年以上。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。新一代工作负载,面临数据存储、数据集成、数据可访问性、应用程序数据集成等问题,无法实现现代化应用程序;环境数据分散,存储在太多不同的地理位置,没有数据集成,没有通用的管理能力,数据孤岛使得数据查询和使用异常困难。这就需要一个企业级的、真正的全球共享数据湖基础架构,更快交付洞察,底层存储必须同时支持新时代的大数据和传统的应用,具备安全性、可靠性和高性能。
数据管理之六大挑战
为了应对云计算、大数据分析、人工智能等新一代应用,我们的企业往往在非结构化数据存储中遇到诸多挑战:
高性能ESS给出最优解
为了应对以上挑战,IBM最新发布了基于 Spectrum Scale 的ESS3500,它包括以下特点:
最后,我想说的是……
各行各业的数字化难题不断涌现,IBM伴随很多客户,一步步突破最新的AI和云计算的性能极限,成就了他们的创新和发展。疫情防控也一样,不仅需要技术的支撑,也需要各方的共同努力、每个人的积极配合,希望世界早日恢复生机蓬勃。
好文章,需要你的鼓励
在基于Chiplet的架构中,可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出,AI可从硅层遥测数据中挖掘价值,但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调,多供应商Chiplet生态系统需要标准化、安全的遥测模式,以实现跨芯片、封装和互联域的故障定位,同时保护敏感运营数据。目前,AI在遥测分析阶段已展现出显著价值,但可观测性的扩展本质上仍是架构问题。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
生命科学企业在全渠道战略和AI平台上投入巨大,但成效往往不尽如人意。问题根源不在于技术本身,而在于组织架构、数据治理和工作方式未能同步演进。许多转型项目止步于试点阶段,原因是各部门数据孤立、职责不清。要实现从传统CRM向智能互动的真正转型,企业需优先建立统一的数据基础和跨团队协作机制,并将AI能力嵌入日常工作流程,而非将其视为独立模块。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。