7月30日,在华为云TechWave数据使能专题日上,清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授和华为云FusionInsight技术专家发表演讲,共同分享了华为云FusionInsight技术团队携手国家级大数据实验室,探索时序数据库IoTDB。

清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授
传统时序数据库面临的痛点与挑战
随着物联网的飞速发展,工业领域中的设备、机器、传感器产生海量数据,例如物联网设备的温度、湿度、速度、压力、电压、电流以及证券买入卖出价等,且这些数值还将随着时间演进而不断变化,传统数据库在对这些带时间标签(按照时间的顺序变化,即时间序列化)的数据进行存储、查询、分析等处理操作时捉襟见肘,通用数据库无法满足所有需求、海量时序数据存储查询慢、工业级时序数据库产品需要高可用、存储成本居高不下、使用难等问题。
IoTDB一套引擎打通云边端
IoTDB是由清华大学软件学院发起主导、华为深度参与的轻量级、高性能时间序列数据库,该项目于2018年11月正式开源,支持物联网数据收集、存储、查询与分析一体化的数据管理,支持“云-边-端”一体化部署与集成,适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。
IoTDB时序数据库聚焦海量杂时序数据的处理,具有“专、快、稳、省、易”五大特点,解决通用数据库和列式数据库在超大规模复杂时序场景的功能短板和性能瓶颈,轻松应对海量负责时间序列数据的处理,并能实现一套引擎打通云边端的时序数据分析。

专,IoTDB总结了过去十年来在工业应用中遇到的典型需求,如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业场景,有针对性地设计了TsFile专业时序存储格式和tLSM时序处理算法,解决了通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈;
快,时序数据库面临的场景要求数据采集频率高、每秒上万次采集,数据存储周期长,时间跨度大,IoTDB可实现单台服务器千万级数据秒级写入,十亿量级数据毫秒级聚合检索;
稳,工业级的时序数据库产品需要具备高可用的基本保障,才能达到商用的要求,IoTDB创新性研究了国际内外的算法,通过对等分布式架构、双层多Raft协议、边云节点同步双活等机制实现高可用,满足7*24小时的零故障运行;
省,成熟的工业时序数据库产品,存储成本在时间序列里占很大的比例,IoTDB解决工业客户对IT成本的敏感性,针对性的做了高压缩比算法,包括有损压缩和无损压缩,针对不同场景做自动识别,实现全量数据的低成本持久存储;
易,产品的易用性是成熟商用产品的基础指标,IoTDB采用类SQL语句,降低客户使用成本,同时为客户提供查询、存储、分析全生命周期的一体化解决方案,降低客户使用门槛。
IoTDB开源探索软件创新之路:产学研用
目前,IoTDB已在众多应用场景中进行了落地实践。例如,全国多个城市采用IoTDB管理地铁监控数据,在传统时序处理方案中,端、边、云采用不同的技术栈,异构的技术栈带来数据处理的复杂性,原本需要13台服务器完成的业务场景,目前仅需一台IoTDB服务器就可解决,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,有效提升资源利用率。
IoTDB时序数据库不仅解决了海量复杂时间序列数据的处理,同时也为软件创新探索出新的模式。王建民教授在演讲中提到:“未来,清华大学将依托大数据国家工程实验室,持续与华为为代表的大批优秀企业,探索产学研用的中国软件创新之路,实现企业与组织、代码与代码的丝丝相扣,让我们共同期待即将发布的MRS IoTDB时序数据库。”
华为云FusionInsight MRS一架构三湖释放海量数据价值
MRS IoTDB是华为云FusionInsight MRS云原生数据湖中的时序数据库组件,近期将在FusionInsight8.1.0版本重磅推出高性能企业级时序数据库。华为云FusionInsight MRS可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖和集市能力,实现海量数据接入、治理、存储、分析和多模计算等场景,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。
目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于政务、金融、运营商、能源、医疗、制造、交通等行业。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。