近年来,国家对于高新技术自主研发的重视已经上升到了国家战略层面,高校作为国家未来人才储备,科研成果最多的单位之一,国家对其投入也在逐年加大。教学设施的优化与科研配套设备对于高校教研工作者来说尤为重要。在众多科研设备中,高性能计算机和计算中心已经越来越多的作为“基建”设施被各大高校争先引入。
齐鲁工业大学作为山东省重点建设的应用研究型大学、山东省综合性自然科学研究机构以及山东省属高校高水平大学,紧随国家科技兴国的发展战略,提前布局高性能计算基础设施,为教学、科研、行业应用等多种应用场景提供完善的融合服务平台。尤其是在人工智能方向,校方迫切需要搭建自己的高性能数据分析集群,帮助在校老师及学生完成在人工智能领域的开发、模型训练教学以及科研任务。
人工智能领域的探索需要强大的算力支撑,高性能数据分析集群是不可或缺的基础设施。它不仅需要良好的硬件支撑和友好的应用软件,更需要能把性能发挥到最大化的中台系统——“集群资源管理和调度软件”。所谓集群资源管理和调度软件就是协调底层硬件资源与应用层软件的中枢系统,好比一个繁忙十字路口的红绿灯,它可缓解拥堵的道路交通,并最大化提升道路运输能力,这就是高性能计算中资源管理和调度软件的作用。没有它的管理,会造成用户的任务大量冲突, IT资源大量浪费,导致科研项目进度大大降低。常规的开源软件如基于容器技术的Kubernetes使用和维护门槛较高,需要使用者熟悉容器的制作和使用,运行和维护也缺乏代码开发者的直接支持。
天云软件与合作伙伴一起积极听取校方的需求与意见,从校方的使用场景出发,根据多年的服务经验和高性能计算、高性能数据分析管理调度软件的技术积累,基于天云自主的高性能计算管理和调度系统SkyForm AIP设计出了一套适合于高校的高性能数据分析平台。重点提升对GPU资源的调度、使用和监控,实现完全云模式的操作流程,让老师和学生们可以像在本地一样远程可视化使用应用。调度软件不仅有效为模型训练任务分配GPU,还可监控GPU实际的使用情况,对已分配GPU后不使用以及随意使用未经调度分配的GPU的任务,将会根据规则自动处理,这样极大的提高了GPU和集群其他资源的利用率,让老师和同学们把精力集中在人工智能的科研和教学上,而不需要花费大量精力去学习和处理容器、操作系统命令等复杂的IT问题。
当然项目也并非进行的一帆风顺。在最初的高性能数据分析集群部署完成后,同学们争先恐后的登录平台,想在平台上尽快建立自己的研究项目,但这也引发了一个问题——稀缺的GPU资源长时间被某些用户长时间占用,导致其他人无法使用。天云软件的技术团队迅速作出反应,对软件产品进行了改进。首先对用户任务类型分类,通过限制登录时间和资源分配,有效释放平台紧俏资源;其次为防止资源分配冲突,对系统监控功能进行了重点升级,使得调度系统在监控下对资源分配得当,效率倍增;最后为了进一步提高整体系统安全性,天云软件技术团队对图形应用内网端口动态端口做了统一映射到一个固定端口,用户通过网关访问系统,直接打开浏览器输入登录,安全便捷。齐鲁工业大学计算机科学与技术学院姜文峰老师说:“平台最开始确实有些使用问题,经过一段时间的磨合后,天云软件逐步完善切实可行的升级方案,并为我们定制化开发了多项配套实用功能,他们不仅能够快速响应,还专门建立了技术运维社群,7*24全天候在线处理突发问题,这样的服务令我们非常满意,目前碰到的问题都已妥善的解决,这个平台对于我们学校的科研教学工作起到了很大的帮助。”
天云软件与合作伙伴通力合作克服了项目实施中的诸多难点,为齐鲁工业大学搭建了一个模块化、便捷、可靠且可扩展的高新能数据分析平台。经过近两年的使用和与运维团队的紧密配合,系统运行稳定,资源效率实使用大幅提高,为校方教学、科研项目提供了良好的技术支撑,得到了老师同学们的一致好评。
好文章,需要你的鼓励
受中国各智能手机品牌坚持低库存战略的影响,智能手机NAND闪存产品面临订单减少,且合同价格与上季度基本持平。与此同时,由于零售市场需求疲软,闪存晶圆的合同价格也开始逆转进入下行。
12月5日,IEEE Tech Frontiers论坛举办,囊括IEEE PES T&D、PVSC、CVP三大会议精华。
年初时,整个存储行业依然处于低迷期,但随着AI需求的迅猛上升,存储需求也随之激增,推动了行业的快速复苏与发展。这一波技术创新与市场需求的双重浪潮,给Solidigm带来了前所未有的机遇,也考验着其应对行业变革的能力。
艾斯本不断推陈出新,依托丰富的行业经验,推出了包括绩效工程、制造与供应链、资产绩效管理、地下科学与工程、数字电网管理和工业数据结构在内的六大解决方案。更值得一提的是艾斯本提出的“工业AI”理念,正以有型的投资回报率,推动客户实现价值跃升。