随着人类社会的进步,世界能源消费总量迅速扩大,能源安全和环境保护问题已引起全球关注。与社会各界共同探讨切实可行的碳减排战略至关重要。作为最早签署《巴黎协定》的国家之一,中国致力于积极应对气候变化,但中国仍然是世界上最大的能源消费国和碳排放国,并呈上升趋势。尽管中国政府制定了一系列总体减排目标,但交通运输等高碳排放行业仍面临着严峻的减排挑战。为了实现碳达峰、碳中和目标,我们需要关注碳排放量的变动,准确、提前地对其进行预测,以便指导未来的碳减排工作。本文将利用SAP 分析云的计划预测功能,研究影响中国碳排放量的主要因素,并根据这些因素预测相应的碳排放值。
在本文中,您将学习到:
- 如何基于历史碳排放数据,构建一个计划模型,为碳排放预测做准备;
- 如何在利用“影响因素”功能进行时间序列预测并进一步优化预测结果;
- 如何在不同的政策环境和变量假设下进行“what-if”预测模拟。
场景和数据
本文使用中国各省(直辖市,除西藏及港澳台)的碳排放量及宏观经济数据,其中包括中国各省(直辖市,除西藏及港澳台)1998-2019年的数据。数据包括许多可能会对碳排放产生影响的自变量,包括第一、第二和第三产业GDP、城镇化比率、出口总额、公路里程、火力发电总量、人口等19个自变量。本文使用这些数据构建了一个计划模型,用以对2020-2025年碳排放量进行时间序列预测。
我们想得到未来6年的预测。但我们无法对未来的自变量值给出准确的值。此时我们需要假设不同的未来政策方向和背景,对自变量进行假设,我们将这种方法称为场景分析(Scenario Analysis),它考虑了不同发展模式下各种影响因素的变化,以及这种变化对于预测目标的影响,而不是简单地忽略政策变化的影响。结合碳排放预测的研究,我们将场景分为三类:高速发展模式(High Growth Mode, HGM)、基线模式(Baseline Mode, BM)以及可持续发展模式(Sustainable Growth Mode, SGM)。在BM场景下,经济、社会和能源的发展通常应根据国家宏观计划进行,这将作为其他情景的基准。HGM场景模拟了中国将继续高速经济发展道路,而相对忽视能源转型的情况。SGM 场景正好相反,中国将更加重视可持续发展模式下的节能技术和低碳转型研究,并在经济适度增长的情况下有效控制化石燃料消耗。
数据导入和计划模型构建
首先我们需要构建计划模型,以支持后续的预测方案工作。在本文中,我们利用现有csv数据文件,将其导入到计划模型中。如下图所示:
导入数据文件后,点击“启用计划”,并选择“年份”为计划日期维,创建模型。如下图所示:
此时完成计划模型的创建,下面我们将基于计划模型创建预测方案,建立碳排放的预测模型。
预测模型建立
我们经常使用“时间序列预测”功能来寻找一些因变量的演变规律,从而生成可以用以预测未来数值的预测模型。时间序列预测可以帮助帮助用户理解,这些因变量的变化是否存在某种规律,以及他们在某个特定月份是否倾向于更低的值(周期性分析)。在一些情况下,被预测的因变量只和时间相关,因此仅依靠该因变量的历史值即可实现准确的预测。但有时,我们要预测的值不仅取决于时间,还与其他外部因素相关。例如,碳排放量可能还与火力发电总量有关,因为火力发电主要依靠煤炭燃烧,产生大量的二氧化碳气体,增加了该省份的碳排放量。
因此,在 SAP 分析云中,我们可以将“影响因素”功能引入到时间序列预测模型中,使得时间序列模型的生成过程中,不仅可以基于历史值,更可以将其他外部影响因素的影响纳入模型的学习范围,从而生成更准确的预测值。下面我们将向您展示如何使用“影响因素”功能,以从碳排放数据中获得更多见解,并提高预测的准确性。
基线预测模型
让我们创建一个“基线”预测模型,在不使用影响因素的情况下预测碳排放量。我们将在 2018 年之后预测 1 个预测点(2019年),并从21年(1998-2018)的历史数据中学习,以预测2019年的碳排放量,并以“地区”列为实体,即对每个省份(直辖市)分别进行预测,见下图。
如下图所示,我们配置一个观测项时段,时段大小为21年,截至2018年。
如下图所示,目前我们不添加任何的影响因素。
对预测模型进行训练后,我们可以在预测建模报告中得到以下结论(如图所示):
- 预测的绝对平均误差为4.88%;
- 不同的省份(直辖市)预测结果不同,预测报告中列出了最佳实体和最差实体;
- 在解读中可以选择不同实体(省份),获取不同的预测结果。
预测结果显示碳排放量某种程度上是与时间相关的。但我们想要引入其他的影响因素,观察是否能获得更好的结果。我们利用“影响因素”功能,来验证是否存在这种相关性。
利用影响因素改进预测模型
我们希望保留基线模型作为参考,并对改进的预测模型使用相同的设置,所以让我们使用“克隆”功能。
打开新创建的预测模型,向下滚动至设置的“影响因素”部分。让我们通过添加以下影响因素并训练预测模型来验证我们关于宏观经济变量对碳排放量产生影响的假设:
一个时间序列预测模型最多可以添加20个影响因素。影响因素是计划模型(账户、度量等)的数值,这可能有助于预测目标。模型训练完成后,在预测建模报告中,我们得到以下几点结论:
- 预测的绝对平均误差为4.53%,相较于不加入影响因素,模型拟合效果提高;
- 最佳实体和最差实体发生了变化,例如未添加影响因素时,上海的预测结果较差,但加入影响因素后,上海的预测结果得到了提高,这说明上海的碳排放量更多取决于宏观经济;
- 对于上海市来说,对碳排放量产生影响较大的变量是火力发电、人口以及水泥生产。
由于预测实体过多,后续的假设模拟我们将以上海为例,为读者展示后续的工作流程,其他省份(直辖市)同理。
为了了解模型的“真实”准确性,我们需要查看水平周期的准确性。通过放大预测与实际的可视化结果,我们可以看到,对于上海市,当使用影响因素时,预测序列更接近实际时间序列:
使用影响因素的时间序列预测分析
不使用影响因素的时间序列预测分析
进一步,我们只利用上述三个影响因素再一次进行预测,观察预测模型拟合效果是否更优。如下图所示:
模型训练完成后,在预测建模报告中,我们得到以下几点结论:
- 预测的绝对平均误差为4.09%,相较于加入所有的影响因素,模型拟合效果提高;
- 最优实体与最差实体再一次产生变化;
- 各个实体的模型拟合结果均优化。
我们在设置中选择的一些影响因素没有出现在列表中。预测模型只保留“有用”的影响因素。它评估每个影响因素将为模型带来多少额外性能,只保留那些带来足够额外准确性的性能。因此,重要的是要理解,如果一个影响因素没有显著提高预测精度,那么就不可能强迫预测模型使用该影响因素。
接下来,我们将利用这三个影响因素,基于不同的政策场景,进行假设模拟,对未来碳排放量进行预测,并观察在不同的发展模式或政策场景下,碳排放量变化的差异。
假设模拟
我们在之前的文章中介绍过有关假设模拟的概念以及相关知识,在阅读该部分之前,您可以点击链接跳转至先前的文章,做初步的了解。
在上一部分,我们对HGM、BM和SGM三种场景进行了介绍和定义。每个模拟场景都将表示为一个计划版本,因此我们需要创建3个私有版本。但要创建这些版本,我们需要考虑SAP 分析云预测计划的局限性:不可能一次训练一个模型并将其应用于多个版本。这意味着我们每次必须使用相同的训练数据训练3个不同的模型。因此,我们将通过复制actual版本的数据来创建3个版本。版本管理将在故事的表格中进行,我们将计划模型导入故事中,建立起画布页面。
选中表格后进入版本管理界面,创建三种场景的私有版本,如图所示。
其中,版本1、版本2和版本3分别对应HGM、BM和SGM三种场景。
在这三种场景中,我们仅仅关注上述预测模型中对于预测结果产生影响的三个影响因素,即火力发电、人口和水泥生产,并只关注上海市的变化。上海市各变量增长率假设情况如下表所示:
场景 | 人口 | 火力发电 | 水泥生产 |
HGM | 0.5% | -8% | 10% |
BM | 0.4% | -10% | 6% |
SDM | 0.3% | -12% | -1% |
接下来我们进行预测模型的训练,现在我们将克隆仅包含以上三个影响因素的时间序列预测模型,并使用以下设置为HGM创建第一个预测模型(预测实体仅仅包含上海):
其余两个预测模型将使用相同的设置。因为需要参考其他输入版本,所以我们将使用“克隆”功能,仅更改计划版本。
现在我们有3个已训练的模型,可以为3个不同的场景生成预测。我们只需要将每个模型的预测写入不同的版本。为了避免版本冲突,我们将把每个模型的预测写入用于训练模型的计划版本。点击“保存预测”按钮。
现在,我们准备将模拟结果可视化为一个故事。
我们可以看到,在HGM、BM和SGM三种假设的情况下,2020-2025年的碳排放量可能是多少。从图中可知,上海未来无论以哪种模式进行发展,其碳排放量均呈下降趋势,但在可持续发展的模式下下降速度最快。
结语
在这篇文章中,您了解了如何利用影响因素来进行预测模型的构建,并执行假设模拟。除了上海市,您也可以更改其他预测实体,例如北京、辽宁、黑龙江等地区,关注您所在地的碳排放量情况。
如果您喜欢这篇文章,欢迎留下评论并点赞,非常感谢。
更多关于SAP 分析云的产品介绍,您可以进入SAP 分析云官网查看。
如果您想了解更多关于SAP 分析云的操作,请关注话题标签:SAP Analytics Cloud
想要了解SAP 分析云即将到来的更新,欢迎进入Roadmap Explorer查看。
您也可以点击试用我们的产品。
想要全面了解如何使用SAP Analytics Cloud 进行预测计划,欢迎阅读中文官方指南:SAP Analytics Cloud 中文帮助手册