【论文阅读 SIGMOD18】Query-based Workload Forecasting for Self-Driving

本文介绍: Autonomous DBMS的第一步就是能够建模并预测工作负载，以前的预测技术对查询的资源利用率进行建模。然而，当数据库的物理设计和硬件资源发生变化时，这些指标会发生变化，从而使以前的预测模型无用。提出了QueryBot 5000的具有鲁棒性的预测框架，它允许DBMS根据历史数据预测未来查询的预期到达率。为了更好地支持高度动态的环境，本文的方法使用工作负载中查询的逻辑组合，而不是用于查询执行的物理资源的数量。提供了短期和长期的预测。本文还提出了一种基于聚类的技术来减少要维护的预测模型的总数。

Autonomous DBMS的第一步就是能够建模并预测工作负载，以前的预测技术对查询的资源利用率进行建模。然而，当数据库的物理设计和硬件资源发生变化时，这些指标会发生变化，从而使以前的预测模型无用。

提出了QueryBot 5000的具有鲁棒性的预测框架，它允许DBMS根据历史数据预测未来查询的预期到达率。为了更好地支持高度动态的环境，本文的方法使用工作负载中查询的逻辑组合，而不是用于查询执行的物理资源的数量。提供了短期和长期的预测。本文还提出了一种基于聚类的技术来减少要维护的预测模型的总数。在三个数据库进行测试，在MySQL和PG的external controller上实现了本文的模型进行了测试（选择索引）。

两个原因关于为什么要再次努力开发self-driving dbms：

要完全autonomous，一个是可以预测未来负载变化做出相应的action，另外一个是能够在低峰期间自动进行action，不然高峰就出现争用了。

以前的工作已经研究了不同上下文中的数据库工作负载建模。

所有这些方法都存在缺陷，这使得它们不适合自治系统。