在执行回归分析中过度拟合是一个实际问题,而且是必须要避免的,过度拟合模型导致错误的回归系数、P值和R-
sq统计量
。没人希望这样,所以,让我们了解一下什么是过度拟合以及如何避免落入过度拟合的陷阱中。
简言之,在数据分析中出现过度拟合是非常复杂的,宁可模型不能反映总体的信息,过度拟合的模型更适应于噪声
因子、异常情况和收集样本数据随机性
。当以上情况出现,如果从某个总体中再次抽样,过度拟合的模型将不能反
映总体的信息了。这就是过度拟合
的缺陷。
一个好的模型不仅应该可以拟合当前样本数据,如果从同一个总体中多次取样,该模型应该也可以很好的拟合。
举一个过度拟合危险性的案例:先看一下下图的拟合线图
:
虽然该模型看起来可以很好解释响应变量的变异情况,但是从图形上看太过复杂,而抽样总体
实际情况是,预测变
量和响应变量
之间没有关系的。
要深入了解关于过度拟合的问题,让我们回顾一下关于推断性统计基础知识,通过推断性统计
,我们需要利用随机
样本数据推断总体参数信息。样本数据用来提供关于总体参数的无偏估计
和关系,同时也检验总体信息。
在推断性统计中,样本量
大小会影响关于总体参数信息量,如要需要了解更多,将需要更多的样本量。欲用较小的
两本量获得较大信息将不可靠。
比如,如果样本量是20,你将只能得到关于总体均值
的较好估计值。但是样本量为20估计两个总体的均值将存在较
大风险,如果用同样的样本量估计两个或更多的抽样总体的均值,你得到的结论只能是很粗略的。
换句话说,设法从一组样本中了解太多的信息将导致结果并不像我们想象中那么可靠,本例中,随着观测值
从20降
低到10设置是6或7,任何总体的统计参数将越来越不可信。换一组样本将得到不同的参数估计值。
相似的,过度拟合回归模型就是由于从较小的样本中设法获得较多参数信息而导致的,在回归分析中,一组样本数
据用来估计模型中所有项的系数,包括每一个自变量
、交互作用和多项式,结果,模型中可以安全容纳的项取决于
样本量的大小。
较大样本量可以分析较复杂的模型,所以,如果你面临的问题或流程非常复杂,你需要足够大的样本量来支持变量
的复杂性,否则,拟合出来的模型是不值得信赖的。
所以需要足够的样本量对模型中每项进行估计,在多元线性回归
中,根据经验,每项有10-15个观测值模型就可以很
好拟合了;如果模型中有2个预测变量并且要分析交互作用,需要大约30-45个观测值,如果存在多重线性或效应较
小,则样本量会更多。
可以通过交叉验证
识别过度拟合,测定模型拟合新观测值的优度,对数据进行分区,是评估模型如何与不用于评估
模型的观察相匹配的一种方法。
对于线性模型
,Minitab计算R-sq(预测),一种不需要分割数据的交叉验证法
。要计算R-sq(预测),Minitab每
次自动从样本中移除一个观测值来估计回归模型并检验去掉某个观测值后的模型拟合优度。
模型如果不能很好预测被移除的观测值,说明样本中存在特殊的数据点,模型不能被推广用于总体的模型。解决过
度拟合的最佳方案是避免,识别每个变量的重要度并确定哪些变量是需要指定的,然后,提前计划收集一个足够大
的样本,它可以处理所有的预测变量
、交互作用和多项式条件,您的响应变量可能需要这些条件。
武汉格发信息技术有限公司,格发许可优化管理系统可以帮你评估贵公司软件许可的真实需求,再低成本合规性管理软件许可,帮助贵司提高软件投资回报率,为软件采购、使用提供科学决策依据。支持的软件有: CAD,CAE,PDM,PLM,Catia,Ugnx, AutoCAD, Pro/E, Solidworks ,Hyperworks, Protel,CAXA,OpenWorks LandMark,MATLAB,Enovia,Winchill,TeamCenter,MathCAD,Ansys, Abaqus,ls-dyna, Fluent, MSC,Bentley,License,UG,ug,catia,Dassault Systèmes,AutoDesk,Altair,autocad,PTC,SolidWorks,Ansys,Siemens PLM Software,Paradigm,Mathworks,Borland,AVEVA,ESRI,hP,Solibri,Progman,Leica,Cadence,IBM,SIMULIA,Citrix,Sybase,Schlumberger,MSC Products...