随着比特币的日益普及,越来越多的分析师正试图更好地理解这一现象。虽然对实际比特币价格做出准确预测可能非常困难,但仍然可以确定一些有趣的趋势和关系。在下文中,将演示如何使用Minitab预测分析模块来完成此任务。
实际的比特币数据可从许多公共来源获得。该数据集包括自2009年以来的每日比特币统计数据。每一天都由44个不同的指标进行汇总,包括比特币价格、各种费用、区块数、交易数、投资回报率等。
出于我们分析的目的,我们将查看2015年1月1日至2021年4月20日期间的比特币每日统计数据。这消除了一些可能影响最新趋势的早期历史。该数据集包括一个名为ROI30d的变量——假设在30天前购买资产的投资回报百分比。在接下来的内容中,我们的主要目标是使用剩余变量作为潜在预测因子来准确预测30天的投资回报。
首先,让我们快速浏览一下使用Minitab的各种数据摘要。
下面是30天投资回报率的时间序列图:
如您所见,投资比特币可以提供丰厚的回报或重大损失。鉴于该资产的波动性,投资比特币的时机对于回报至关重要。因此,了解影响回报的因素有助于确定何时是最佳投资时机。
我们经常被问到的问题:如何在最短的时间内拿出最好的答案?有44个可能的预测变量,我们需要知道哪些最重要,并且我们需要快速知道它以便进行分析。
这正是Minitab Predictive Analytics Module(Minitab 预测分析模块)有一个名为“Discover Key Predictors(发现关键预测变量)”的选项的原因。这个选项允许我们让软件识别最重要的变量,使我们能够构建一个仍然高度准确但不那么复杂的模型,使其更加用户友好。
我们获取有关数据集并通过TreeNet“Discover Key Predictors(发现关键预测变量)”运行它。正如预期的那样,Minitab从提供的一组候选预测变量开始,然后依次构建一系列模型,每个后续模型通过删除最不重要的变量来使用较少的预测变量。因此,整个过程是经典回归建模中反向消除过程的现代推广。以下是当我们从整套预测变量集(不包括日期)开始时发生的情况:
查看我可能的模型的图形可视化,您可以看到模型精度在90%左右波动,直到只剩下两个预测变量。当我们深入分析时,“Discover Key Predictors(发现关键预测变量)”显示 AssetEODCompletionTime 是“last man standing”或最重要的预测因素。
不幸的是,从数据字典中查找它的定义,这个“预测器”只是每天收集最后一个数据的时间,这不是一个有用的指标。因此,我们需要消除这一点,因为我们可以确信,这些可能是相关的,但不是预测性的。这在预测器选择中并不少见:通常情况下,机器首先会选择一堆无用的玩家。此示例还强调了将预测分析与主题专业知识相结合的重要性。幸运的是,解决方案很简单——只需将其从变量的起始列表中删除,然后重新进行“Discover Best Predictor(发现最佳预测变量)”分析!
从原始列表中删除AssetEODCompletionTime并重新启动预测器发现过程后,我们可以获得以下摘要:
请注意,Minitab的Engine强调优化模型使用8个原始变量(衡量指标),并在50%的测试分区上达到91%的R平方。对于这种类型的回归模型,这是一个极好的性能结果!另请注意,模型性能的统计变化约为90%。
Minitab还为我们提供了一个有用的可视化效果,即只有当预测变量的数量低于3时,模型的整体准确度才会显着下降。为了构建最简单的模型,同时最大限度地提高精度,我们选择了一个具有3个预测变量的模型进行更详细的分析。或者,您可以从原始候选列表中删除其中一些变量,然后重新进行最佳预测变量搜索,以识别不同的获胜者子集。请记住,在此示例中,我们试图快速确定重要的内容。如果最大准确度是您的目标,那么您可能需要选择最佳模型。机会无穷无尽,无论您的目标是什么,只需点击几下即可轻松实现!
回到我们的例子。我们现在将仔细研究上面选择的3个变量模型。以下是该模型的总结性能:
如您所见,我们对50%的测试样本有88%以上的准确率——这是一个极好的结果!此外,Minitab报告了三个尚存指标对该模型的总体贡献方面的相对排名:
与3天投资回报率相关的最重要变量是CapMVRVCur。事实证明,这个变量概括了市场可能的高估/低估。以下是该变量在过去6年中的时间序列图:
该指标似乎倾向于在1.0和4.0之间波动,当前值在3.3左右,并且可能会下降。以下是数据字典中有关此指标的更详细描述:
创建该比率背后的直觉是将价格函数除以由已实现资本化代表的“基本面”(请参阅Capitalization, realized, USD)。这为您提供了一个比率,可能表明高估时期(当网络价值远远超过其与已实现上限的历史关系时)和低估时期。已实现上限是一个强大的基本面,因为它可以理解为持有人在给定时间的平均成本基础,因此两者的比率表明持有人是否处于水下,从而深入了解总体情绪。
TreeNet梯度提升模型还揭示了该指标对30天投资回报率的贡献性质:
回想一下,该指标的最新值在3.3左右波动,并且可能会继续下降。从上面的依赖图中可以清楚地看出,如果情况确实如此,那么我们预计3天的ROI将继续下降。或者,如果有任何理由相信该指标将增加到3.7或更高,我们可能会根据历史模式预计投资回报率会大幅上升。
上述一系列步骤模拟了预测分析中遇到的典型场景。我们从一个包含44个变量的数据集开始,并在几分钟内迅速找到了最重要的预测变量。关键预测变量选择创建了一条捷径,以避免一次查看每个变量的潜在的繁琐过程。此外,TreeNet梯度提升模型显示出极好的准确性。所有这些都凸显了现代预测分析的力量,并说明了为什么您需要它向前发展!
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删