7月30日,在华为云TechWave数据使能专题日上,清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授和华为云FusionInsight技术专家发表演讲,共同分享了华为云FusionInsight技术团队携手国家级大数据实验室,探索时序数据库IoTDB。
清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授
传统时序数据库面临的痛点与挑战
随着物联网的飞速发展,工业领域中的设备、机器、传感器产生海量数据,例如物联网设备的温度、湿度、速度、压力、电压、电流以及证券买入卖出价等,且这些数值还将随着时间演进而不断变化,传统数据库在对这些带时间标签(按照时间的顺序变化,即时间序列化)的数据进行存储、查询、分析等处理操作时捉襟见肘,通用数据库无法满足所有需求、海量时序数据存储查询慢、工业级时序数据库产品需要高可用、存储成本居高不下、使用难等问题。
IoTDB一套引擎打通云边端
IoTDB是由清华大学软件学院发起主导、华为深度参与的轻量级、高性能时间序列数据库,该项目于2018年11月正式开源,支持物联网数据收集、存储、查询与分析一体化的数据管理,支持“云-边-端”一体化部署与集成,适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。
IoTDB时序数据库聚焦海量杂时序数据的处理,具有“专、快、稳、省、易”五大特点,解决通用数据库和列式数据库在超大规模复杂时序场景的功能短板和性能瓶颈,轻松应对海量负责时间序列数据的处理,并能实现一套引擎打通云边端的时序数据分析。
专,IoTDB总结了过去十年来在工业应用中遇到的典型需求,如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业场景,有针对性地设计了TsFile专业时序存储格式和tLSM时序处理算法,解决了通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈;
快,时序数据库面临的场景要求数据采集频率高、每秒上万次采集,数据存储周期长,时间跨度大,IoTDB可实现单台服务器千万级数据秒级写入,十亿量级数据毫秒级聚合检索;
稳,工业级的时序数据库产品需要具备高可用的基本保障,才能达到商用的要求,IoTDB创新性研究了国际内外的算法,通过对等分布式架构、双层多Raft协议、边云节点同步双活等机制实现高可用,满足7*24小时的零故障运行;
省,成熟的工业时序数据库产品,存储成本在时间序列里占很大的比例,IoTDB解决工业客户对IT成本的敏感性,针对性的做了高压缩比算法,包括有损压缩和无损压缩,针对不同场景做自动识别,实现全量数据的低成本持久存储;
易,产品的易用性是成熟商用产品的基础指标,IoTDB采用类SQL语句,降低客户使用成本,同时为客户提供查询、存储、分析全生命周期的一体化解决方案,降低客户使用门槛。
IoTDB开源探索软件创新之路:产学研用
目前,IoTDB已在众多应用场景中进行了落地实践。例如,全国多个城市采用IoTDB管理地铁监控数据,在传统时序处理方案中,端、边、云采用不同的技术栈,异构的技术栈带来数据处理的复杂性,原本需要13台服务器完成的业务场景,目前仅需一台IoTDB服务器就可解决,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,有效提升资源利用率。
IoTDB时序数据库不仅解决了海量复杂时间序列数据的处理,同时也为软件创新探索出新的模式。王建民教授在演讲中提到:“未来,清华大学将依托大数据国家工程实验室,持续与华为为代表的大批优秀企业,探索产学研用的中国软件创新之路,实现企业与组织、代码与代码的丝丝相扣,让我们共同期待即将发布的MRS IoTDB时序数据库。”
华为云FusionInsight MRS一架构三湖释放海量数据价值
MRS IoTDB是华为云FusionInsight MRS云原生数据湖中的时序数据库组件,近期将在FusionInsight8.1.0版本重磅推出高性能企业级时序数据库。华为云FusionInsight MRS可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖和集市能力,实现海量数据接入、治理、存储、分析和多模计算等场景,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。
目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于政务、金融、运营商、能源、医疗、制造、交通等行业。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。