7月30日,在华为云TechWave数据使能专题日上,清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授和华为云FusionInsight技术专家发表演讲,共同分享了华为云FusionInsight技术团队携手国家级大数据实验室,探索时序数据库IoTDB。
清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授
传统时序数据库面临的痛点与挑战
随着物联网的飞速发展,工业领域中的设备、机器、传感器产生海量数据,例如物联网设备的温度、湿度、速度、压力、电压、电流以及证券买入卖出价等,且这些数值还将随着时间演进而不断变化,传统数据库在对这些带时间标签(按照时间的顺序变化,即时间序列化)的数据进行存储、查询、分析等处理操作时捉襟见肘,通用数据库无法满足所有需求、海量时序数据存储查询慢、工业级时序数据库产品需要高可用、存储成本居高不下、使用难等问题。
IoTDB一套引擎打通云边端
IoTDB是由清华大学软件学院发起主导、华为深度参与的轻量级、高性能时间序列数据库,该项目于2018年11月正式开源,支持物联网数据收集、存储、查询与分析一体化的数据管理,支持“云-边-端”一体化部署与集成,适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。
IoTDB时序数据库聚焦海量杂时序数据的处理,具有“专、快、稳、省、易”五大特点,解决通用数据库和列式数据库在超大规模复杂时序场景的功能短板和性能瓶颈,轻松应对海量负责时间序列数据的处理,并能实现一套引擎打通云边端的时序数据分析。
专,IoTDB总结了过去十年来在工业应用中遇到的典型需求,如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业场景,有针对性地设计了TsFile专业时序存储格式和tLSM时序处理算法,解决了通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈;
快,时序数据库面临的场景要求数据采集频率高、每秒上万次采集,数据存储周期长,时间跨度大,IoTDB可实现单台服务器千万级数据秒级写入,十亿量级数据毫秒级聚合检索;
稳,工业级的时序数据库产品需要具备高可用的基本保障,才能达到商用的要求,IoTDB创新性研究了国际内外的算法,通过对等分布式架构、双层多Raft协议、边云节点同步双活等机制实现高可用,满足7*24小时的零故障运行;
省,成熟的工业时序数据库产品,存储成本在时间序列里占很大的比例,IoTDB解决工业客户对IT成本的敏感性,针对性的做了高压缩比算法,包括有损压缩和无损压缩,针对不同场景做自动识别,实现全量数据的低成本持久存储;
易,产品的易用性是成熟商用产品的基础指标,IoTDB采用类SQL语句,降低客户使用成本,同时为客户提供查询、存储、分析全生命周期的一体化解决方案,降低客户使用门槛。
IoTDB开源探索软件创新之路:产学研用
目前,IoTDB已在众多应用场景中进行了落地实践。例如,全国多个城市采用IoTDB管理地铁监控数据,在传统时序处理方案中,端、边、云采用不同的技术栈,异构的技术栈带来数据处理的复杂性,原本需要13台服务器完成的业务场景,目前仅需一台IoTDB服务器就可解决,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,有效提升资源利用率。
IoTDB时序数据库不仅解决了海量复杂时间序列数据的处理,同时也为软件创新探索出新的模式。王建民教授在演讲中提到:“未来,清华大学将依托大数据国家工程实验室,持续与华为为代表的大批优秀企业,探索产学研用的中国软件创新之路,实现企业与组织、代码与代码的丝丝相扣,让我们共同期待即将发布的MRS IoTDB时序数据库。”
华为云FusionInsight MRS一架构三湖释放海量数据价值
MRS IoTDB是华为云FusionInsight MRS云原生数据湖中的时序数据库组件,近期将在FusionInsight8.1.0版本重磅推出高性能企业级时序数据库。华为云FusionInsight MRS可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖和集市能力,实现海量数据接入、治理、存储、分析和多模计算等场景,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。
目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于政务、金融、运营商、能源、医疗、制造、交通等行业。
好文章,需要你的鼓励
The Moonshot Podcast发布了一期深度访谈视频,X公司"创始人"Astro Teller与Google DeepMind首席科学家Jeff Dean进行了一场近一小时的对话,回顾了Google Brain项目的早期历程。
南洋理工大学研究团队开发的Life2vec系统能够通过分析个人生活数据预测未来人生轨迹,在收入和职业预测上达到78-85%准确率。该系统使用丹麦600万人的真实数据,采用类似GPT的AI技术,揭示了教育投资、社交网络、地理位置等因素对人生发展的深层影响规律,为政策制定和个人规划提供科学依据。
Linux基金会正式接受微软DocumentDB项目,该项目采用宽松的MIT许可证。这一举措是对MongoDB在2018年转向限制性SSPL许可证的回应。DocumentDB基于PostgreSQL扩展开发,旨在结合NoSQL灵活性与关系数据库的可靠性。项目支持MongoDB兼容的CRUD操作和BSON数据模型。此举被视为对MongoDB许可政策的成功反击,推动了开放标准的建立。
中国科学家成功将扩散模型应用于语言生成,开发出名为LLaDA的创新AI系统。与ChatGPT等传统按序生成的模型不同,LLaDA采用"填空"方式工作,能同时考虑文本前后信息。在80亿参数规模下,LLaDA在多项测试中表现优异,特别是在逆向推理任务上超越GPT-4o,为AI语言模型发展开辟了全新技术路径。