作者:甲骨文公司 MySQL HeatWave 高级副总裁 Nipun Agarwal
在美国加利福尼亚州红木海岸的 MySQL Summit Day 上,甲骨文公司宣布推出 MySQL HeatWave AutoML 新功能,以扩展 MySQL HeatWave 的机器学习用例,同时也宣布推出 MySQL HeatWave on AWS 新功能并提升 MySQL HeatWave on OCI 的性价比。
MySQL HeatWave AutoML 全新功能
MySQL HeatWave 提供原生的数据库内机器学习。客户无需将数据迁移到单独的机器学习服务中,即可轻松、安全地将存储在 MySQL HeatWave 中的数据用于机器学习训练、推断和解释。HeatWave AutoML 可实现机器学习生命周期自动化。基准测试表明,HeatWave AutoML 平均能生成比 Amazon Redshift ML 更准确的结果,模型训练速度是后者的 25 倍,可随着节点数量增加而扩展。MySQL HeatWave 客户无需支付额外费用即可获得此功能。
到目前为止,客户可以自动训练回归、分类和单变量时间序列预测模型。在此,甲骨文公司宣布扩展 MySQL HeatWave AutoML 的生命周期自动化,以支持多变量时间序列预测、无监督异常检测和推荐系统。现在,机器学习功能可通过交互式控制台提供,让业务分析师无需 IT 人员的协助即可轻松构建、训练、运行和解释机器学习模型。
多变量时间序列预测
时间序列预测是一种基于过去事件的关键指标预测未来值的技术。该技术使用按时间排序的历史事件以及其他变量来预测未来值。多变量时间序列预测可以预测多个按时间排序的变量,其中每个变量都依赖于其历史值和其他相关变量的历史值。例如,该技术适用于构建冬季电力需求的预测模型,其中的考量因素包括各种发电能源。
分析时间序列时,必须利用时间依赖性和内部结构,包括季节性、趋势和残值等要素。时间序列预测有许多不同的算法,每一种算法适合不同的特性。一般上,只有经过时间序列分析培训的统计人员才能选择合适的算法。有鉴于其中的复杂性,时间序列预测自动化的需求庞大,而这正是 MySQL HeatWave 现在提供的功能。MySQL HeatWave AutoML 可自动预处理数据,为 ML 模型选择合适的算法并自动优化模型。
HeatWave AutoML 自动预测管道使用专利技术,其中分为高级时间序列预处理、算法选择和超参数优化等阶段。高级时间序列阶段可预估基本的时间序列特征(比如季节性、趋势等),然后会在算法选择和超参数优化阶段使用这些估计值。算法选择阶段将从所支持的算法集中选择适合给定时间序列数据集的算法。超参数优化阶段可根据预处理程序推荐的范围优化算法的超参数。这种自动化能够帮助客户节省大量时间和精力,在人力方面也不再需要依赖训练有素的统计人员。
无监督异常检测
异常检测是发现数据异常模式的数据挖掘任务。该功能适用于各种领域,包括金融欺诈检测、网络安全中的网络入侵检测和威胁生命问题的临床检测。
用户可以采用多种基于距离的机器学习算法,使用最近邻居距离来检测异常。但是,这些算法通常用于检测特定的异常类型,因此如果用户不知道数据集中有哪些异常类型,在选择算法时可能会无法正确操作。
在 MySQL HeatWave 中,我们实施了新的无监督解析性集合算法,可以检测来自无标签数据集的各种异常类型,而无需任何随机化。此算法可为无监督异常检测基准 (Unsupervised Anomaly Detection Benchmark, UADB) 数据集提供高性能,使其性能超出某些广泛使用的算法,例如 K 近邻算法 (k-th Nearest Neighbor, kNN) 和局部异常因子算法 (Local Outlier Factor, LOF)。
HeatWave AutoML 生成的模型可为各类型的异常(包括本地、集群和全局)提供高准确性。该过程完全自动化,无需数据分析人员手动确定要使用的算法、要选择的功能,以及适合的超参数值来识别来自无标签数据集的这三种异常类型。
推荐系统
推荐系统可根据用户的搜索活动和历史活动提供个性化推荐。例如,线上商店会预测用户喜欢的商品、用户对商品的评价、以及广受用户欢迎的商品。另一个常见示例是基于用户的观看历史记录的电影推荐。
现在,MySQL HeatWave 支持推荐系统,并为客户提供完全自动化的流程,包括算法选择、功能选择和超参数优化,从而节省大量时间和精力。相比之下,其他云技术仅推荐算法,用户需要扛起选择合适算法的负担,并手动对其进行优化。
通过 MySQL HeatWave,用户可以调用 ML_TRAIN 程序,自动训练随后存储在 MODEL_CATALOG 中的模型。如果要预测推荐结果,用户可以调用 ML_PREDICT_ROW 或 ML_PREDICT_TABLE。
全新的 MySQL HeatWave AutoML 交互式控制台
通过新的交互式控制台,业务分析人员可以使用可视界面构建、训练、运行和解释机器学习模型,而无需使用 SQL 命令或进行任何编码。控制台还让用户可以轻松通过假设场景来评估业务假设,例如“如果对付费社交媒体广告的投资增加 30%,将会如何影响收入和利润?”。该控制台将在 MySQL HeatWave on AWS 上先推出。
面向多云的新功能
MySQL HeatWave on AWS
MySQL HeatWave 原生运行于 AWS,使客户能够以超低延迟访问数据库,并避免在 AWS 上部署的应用产生高昂的 AWS 数据出站费用。甲骨文公司正在从多方面增强 MySQL HeatWave on AWS。
扩展数据管理
现在,MySQL HeatWave on AWS 提供基于 Amazon S3 构建的优化存储层,可以存储 HeatWave 混合列式表示形式。当数据从 MySQL(InnoDB 存储引擎)加载到 HeatWave 时,会在基于 S3 构建的横向扩展数据管理层中生成一个副本。每当需要将数据重新加载到 HeatWave 时(例如在错误恢复期间),多个 HeatWave 节点可以并行访问数据,而这些数据可以直接加载到 HeatWave 中,无需进行任何转换。因此,这可以显著加快恢复速度并提高服务的可用性。例如,对于一个 4TB 的 HeatWave 集群,相较于从 S3 恢复和重新加载数据,从 MySQL 重新加载数据所需的时间可从 140 分钟缩短到 3.5 分钟,而且不会影响 OLTP 性能。
控制台支持 MySQL Autopilot 自动配置预测
MySQL Autopilot 为应用生命周期的各个方面(包括供应、数据加载、查询执行和故障处理)提供可识别工作负载的机器学习自动化功能,还提供专为 OLTP 工作负载设计的功能。
在交互式控制台中,数据库用户现在可以访问 MySQL Autopilot 自动配置预测顾问程序,持续监视 OLTP 工作负载,在任何指定时间内推荐合适的计算配置,确保客户始终获得理想性价比。数据库用户可以利用控制台中的可视化表示形式,轻松调整数据库配置的大小。该功能还可根据历史性能趋势(包括吞吐量和缓冲池命中率)提供可视化分析和推荐方案。
预定义的 MySQL HeatWave 配置
MySQL HeatWave on AWS 提供一组根据 MySQL 配置和工作负载进行预定义和优化的 MySQL 配置。同时支持纯 OLTP 工作负载和 OLAP/混合工作负载。
用户还可以为新系统创建自定义配置。
MySQL HeatWave on OCI
HeatWave 推出全新的小型配置
到目前为止,HeatWave 节点的大小为 512GB。许多数据量较小的客户希望在使用 HeatWave 时无需预配这么大的节点。现在,我们推出了一种新的 32GB 小型配置,可以处理多达 50GB 的数据,每月仅需支付 16 美元。
性价比更高
现在,HeatWave 节点 (512GB) 可以处理的数据量从 800GB 增加到 1TB(请注意,确切的处理数据量取决于数据和工作负载特征)。随着这种增长和其他查询性能的提高,HeatWave 的性价比优势进一步提高了 15%。
甲骨文还推出了 MySQL Autopilot 自动卸载功能。利用此功能,用户可以根据系统推荐方案,确定内存中最近未使用的表,了解可以被清除的项目。释放内存可以减少运行工作负载所需的集群大小,并节省成本。
有关 MySQL HeatWave 或上述新功能的详细信息,请参阅 oracle.com/heatwave 上的技术简报。
*注:为免疑义,本文所用以下术语专指以下含义:
1. Oracle专指Oracle境外公司而非甲骨文中国。
2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。