突破数据分析瓶颈，寻因生物单细胞测序数据分析迈入云时代

寻因生物,是一家自主研发单细胞技术的精准医疗生物医药企业,致力于通过国产高通量单细胞全链条产品及服务,将单细胞技术普适化,应用于临床及药物研发,推动相关疾病研究。

世上没有两片完全相同的树叶,人体内的每两个细胞也是截然不同的。长久以来,基因检测技术主要是在组织层面对样本进行解析,获得的是成千上万个细胞的平均值,但这会让很多信息是被隐匿,对疾病的认知和理解存在很大的障碍。

单细胞检测技术将基因检测的水平提升到了单细胞的精度,可以揭示每一个细胞的细微变化,对疾病的认知、诊疗方式的改变、药物研发的方式提供了更好的方法。而其中,高通量测序(NGS)技术因其高度准确性和特异性成为了单细胞测序的理想工具。

通常,单细胞测序工作流程包含单细胞样本制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读四个步骤。作为国内独家拥有微孔芯片与油包水双技术平台的寻因生物来说,单细胞样本制备、单细胞分离和文库制备是其强项。同时,寻因生物具有完备的数据分析和解读能力,底层分析计算效率的提升十分必要。

据悉,在单细胞测序数据分析环节,业界普遍存在数据量大、分析时间长的挑战。仅一个单细胞测序文件的大小可达100GB以上,而随着一个单细胞项目包含的样本量越来越多,可能产生数百GB甚至TB级的细胞数据;同时,单细胞数据的分析复杂,需要反复做数据读取和参数调整,所以处理海量细胞样本的分析任务通常需要数小时甚至数天才能完成。因此,超大数据量和分析复杂性所导致的任务并发度低和数据加载速率慢是未来单细胞分析性能的主要瓶颈之一。

在单细胞测序数据分析过程中,每个细胞的表达量数据高达数十万条读取 (reads),产生的数据更是要大得多,这种海量级的数据分析对云主机的内存容量提出了更高的要求。而通用的云主机的内存容量与CPU配比有限,单细胞的分析任务常会出现因内存不足而导致运行失败;而选用传统的大内存云主机,不仅要付出更加高昂的成本,而且会造成CPU算力的浪费。所以,内存容量的限制使寻因生物不得不将样本参数调低来满足运行任务。此外,通用的云主机仅能支持运行一个单细胞分析任务,在测序任务多的情况下,寻因生物只能将多任务排队执行,非常耗时;同时,在测序数据分析过程中,每次临时数据在磁盘上的导出和加载(IO)过程长达1000秒,随着数据集的持续增长,这种处理速度阻碍了预期的研究发现时间。

当前,寻因生物将单细胞测序分析任务部署在了第三代英特尔® 至强® 可扩展处理器 (代号: Ice Lake) 和英特尔® 傲腾™ 持久内存的阿里云i4p持久内存型实例上,并在实例中使用了MemVerge公司开发的 Memory Machine大内存软件,不但完全消除磁盘读写带来的IO瓶颈,帮助寻因生物成功地运行了多细胞数、大样本的测序数据分析任务,并能通过Memory Machine的ZeroIO内存快照功能使数据导出和加载从原来的1000秒降至2.5秒,将数据读取的效率提升了两个数量级。

阿里云i4p持久内存实例是阿里云基于英特尔® 傲腾™ 持久内存推出的第二代持久内存实例,傲腾® 持久内存让高性价比的大容量内存与对数据持久性的支持巧妙地结合在一起,将更多数据保存在更靠近CPU的地方,加速了大内存计算, 可以说重新定义了传统的两级存储架构。

除基本vCPU和内存外,阿里云i4p实例还配置了持久内存资源,极大地扩展了主机的内存容量,让内存中可以存放更多数据用于测序数据分析,同时并发运行更多的测序任务,相对于传统普通大内存实例,i4p持久内存实例可以帮助用户打破“内存墙”藩篱,获得更高性能的同时,有效降低整体IT基础设施拥有成本(TCO)。

MemVerge开发的Memory Machine大内存虚拟化软件,可运行在i4p持久内存实例中,将其中的持久内存和普通内存进行融合,可以透明地使用大内存资源,无需对应用进行改造,即可充分发挥持久内存的全部性能;其软件的高级功能“ZeroIO内存快照”,可以完全避免临时数据的磁盘IO过程,实现客户应用性能的飞跃。同时通过阿里云计算巢还实现了Memory Machine大内存虚拟化软件与云平台的标准化集成,实现快速的软件交付部署和标准化的运维管理,大幅提升了业务效率。

“这能够使我们的单细胞数据分析业务完全消除IO瓶颈,并在实际的分析任务中将持久内存的大容量能力充分利用起来,让任务的并发能力提升了5倍以上,且该方案能让多细胞数,大样本任务能顺利地运行成功,对提高我们生信用户的业务吞吐能力和工作效率有非常大的助力。”寻因生物公司生物部张广鑫表示。

来源：业界供稿

数据分析

0赞

好文章，需要你的鼓励

突破数据分析瓶颈，寻因生物单细胞测序数据分析迈入云时代

来源：业界供稿

2022

03/31

17:25

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Google 在 Colab Python 平台推出免费的 Gemini 驱动数据科学助手

SAP Business Suite 重启计划引发用户关注

Anthropic 经济指数 — 企业领导者必知的 10 大 AI 工作场所趋势

TigerGraph 升级图数据库产品，实现更快部署速度和全新预配置方案

AI 数据公司主导 BestBrokers 最新独角兽企业榜单

AI 将帮助我们理解参与度的"原因"

AI数据中心：网络设计和选型标准

分步指南：如何运用AI技术进行数据分析

CIO应该利用数据分析创造更美好的未来

Gartner：“后数据中台时代”登场，企业需要数据新策略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会