Minitab预测分析模块:比特币数据分析

随着比特币的日益普及,越来越多的分析师正试图更好地理解这一现象。虽然对实际比特币价格做出准确预测可能非常困难,但仍然可以确定一些有趣的趋势和关系。在下文中,将演示如何使用Minitab预测分析模块来完成此任务。

实际的比特币数据可从许多公共来源获得。该数据集包括自2009年以来的每日比特币统计数据。每一天都由44个不同的指标进行汇总,包括比特币价格、各种费用、区块数、交易数、投资回报率等。

出于我们分析的目的,我们将查看2015年1月1日至2021年4月20日期间的比特币每日统计数据。这消除了一些可能影响最新趋势的早期历史。该数据集包括一个名为ROI30d的变量——假设在30天前购买资产的投资回报百分比。在接下来的内容中,我们的主要目标是使用剩余变量作为潜在预测因子来准确预测30天的投资回报。

数据摘要

首先,让我们快速浏览一下使用Minitab的各种数据摘要。

下面是30天投资回报率的时间序列图:



如您所见,投资比特币可以提供丰厚的回报或重大损失。鉴于该资产的波动性,投资比特币的时机对于回报至关重要。因此,了解影响回报的因素有助于确定何时是最佳投资时机。

确定最重要的预测因子

我们经常被问到的问题:如何在最短的时间内拿出最好的答案?有44个可能的预测变量,我们需要知道哪些最重要,并且我们需要快速知道它以便进行分析。

这正是Minitab Predictive Analytics Module(Minitab 预测分析模块)有一个名为“Discover Key Predictors(发现关键预测变量)”的选项的原因。这个选项允许我们让软件识别最重要的变量,使我们能够构建一个仍然高度准确但不那么复杂的模型,使其更加用户友好。

我们获取有关数据集并通过TreeNet“Discover Key Predictors(发现关键预测变量)”运行它。正如预期的那样,Minitab从提供的一组候选预测变量开始,然后依次构建一系列模型,每个后续模型通过删除最不重要的变量来使用较少的预测变量。因此,整个过程是经典回归建模中反向消除过程的现代推广。以下是当我们从整套预测变量集(不包括日期)开始时发生的情况:



查看我可能的模型的图形可视化,您可以看到模型精度在90%左右波动,直到只剩下两个预测变量。当我们深入分析时,“Discover Key Predictors(发现关键预测变量)”显示 AssetEODCompletionTime 是“last man standing”或最重要的预测因素。

不幸的是,从数据字典中查找它的定义,这个“预测器”只是每天收集最后一个数据的时间,这不是一个有用的指标。因此,我们需要消除这一点,因为我们可以确信,这些可能是相关的,但不是预测性的。这在预测器选择中并不少见:通常情况下,机器首先会选择一堆无用的玩家。此示例还强调了将预测分析与主题专业知识相结合的重要性。幸运的是,解决方案很简单——只需将其从变量的起始列表中删除,然后重新进行“Discover Best Predictor(发现最佳预测变量)”分析!

从原始列表中删除AssetEODCompletionTime并重新启动预测器发现过程后,我们可以获得以下摘要:



请注意,Minitab的Engine强调优化模型使用8个原始变量(衡量指标),并在50%的测试分区上达到91%的R平方。对于这种类型的回归模型,这是一个极好的性能结果!另请注意,模型性能的统计变化约为90%。

Minitab还为我们提供了一个有用的可视化效果,即只有当预测变量的数量低于3时,模型的整体准确度才会显着下降。为了构建最简单的模型,同时最大限度地提高精度,我们选择了一个具有3个预测变量的模型进行更详细的分析。或者,您可以从原始候选列表中删除其中一些变量,然后重新进行最佳预测变量搜索,以识别不同的获胜者子集。请记住,在此示例中,我们试图快速确定重要的内容。如果最大准确度是您的目标,那么您可能需要选择最佳模型。机会无穷无尽,无论您的目标是什么,只需点击几下即可轻松实现!

建模见解

回到我们的例子。我们现在将仔细研究上面选择的3个变量模型。以下是该模型的总结性能:



如您所见,我们对50%的测试样本有88%以上的准确率——这是一个极好的结果!此外,Minitab报告了三个尚存指标对该模型的总体贡献方面的相对排名:



与3天投资回报率相关的最重要变量是CapMVRVCur。事实证明,这个变量概括了市场可能的高估/低估。以下是该变量在过去6年中的时间序列图:



该指标似乎倾向于在1.0和4.0之间波动,当前值在3.3左右,并且可能会下降。以下是数据字典中有关此指标的更详细描述:

创建该比率背后的直觉是将价格函数除以由已实现资本化代表的“基本面”(请参阅Capitalization, realized, USD)。这为您提供了一个比率,可能表明高估时期(当网络价值远远超过其与已实现上限的历史关系时)和低估时期。已实现上限是一个强大的基本面,因为它可以理解为持有人在给定时间的平均成本基础,因此两者的比率表明持有人是否处于水下,从而深入了解总体情绪。

TreeNet梯度提升模型还揭示了该指标对30天投资回报率的贡献性质:



回想一下,该指标的最新值在3.3左右波动,并且可能会继续下降。从上面的依赖图中可以清楚地看出,如果情况确实如此,那么我们预计3天的ROI将继续下降。或者,如果有任何理由相信该指标将增加到3.7或更高,我们可能会根据历史模式预计投资回报率会大幅上升。

上述一系列步骤模拟了预测分析中遇到的典型场景。我们从一个包含44个变量的数据集开始,并在几分钟内迅速找到了最重要的预测变量。关键预测变量选择创建了一条捷径,以避免一次查看每个变量的潜在的繁琐过程。此外,TreeNet梯度提升模型显示出极好的准确性。所有这些都凸显了现代预测分析的力量,并说明了为什么您需要它向前发展!

免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空