建模之前不做数据探索分析,等于闭着眼睛开车。2026年了,EDA(Exploratory Data Analysis)依然是数据挖掘项目里最容易被跳过、但最不该跳过的一步。它帮你看清数据的形状、边界、分布和噪声,把一个冷冰冰的数据集还原成你能读懂的故事。Rattle这个工具里的Explore标签,集成了一整套探索流程,下面逐个拆开讲。
拿到数据第一件事干什么?别急着建模型,先跑一遍Summary。
Rattle的Explore标签里,Summary选项会直接输出一张汇总表。峰度、偏度、缺失值数量、各因子水平的交叉列联表,全在里面。这步看什么?看数据有没有明显的偏态分布,缺失值集中在哪些变量上,类别变量的各个水平占比是否均衡。
举个例子。weather数据集里,MinTemp这个变量的偏度如果明显不为0,说明温度分布不对称,后续建模可能需要做对数变换或者Box-Cox变换。缺失值超过30%的变量,要么考虑删除,要么得想办法插补,别等到建模阶段才发现数据有坑。
这一步花不了2分钟,但能帮你省掉后面2天的返工。我见过太多人跳过这步直接跑模型,结果因为一个变量的分布严重右偏,整个模型的残差全是问题。

Summary看的是数字,Distributions看的是图形。
数值型变量可以画4种图:箱形图、直方图、累积分布图、Benford图。箱形图看离群点,直方图看分布形态,累积分布图看分位数,Benford图看数字首位是否符合Benford法则——这个法则说的是自然数据集中,首位数字是1的概率约30.1%,是9的概率只有4.6%,近似幂律分布。如果你的数据严重偏离这个规律,说明数据可能被人为篡改过,或者采集过程有问题。
属性变量能画3种图:条形图、点图、马赛克图。条形图看各类别占比,点图看各水平下的频数,马赛克图看多维列联表的关系。
马赛克图这个东西很多人不会用,但它特别好用。它的原理是对数线性模型,用矩形块面积表示频数,整张图看起来像马赛克拼贴。2026年了,用Rattle画马赛克图依然是最快的方式。分组变量可以在Data标签的Target Data Type里改,比如把weather数据集按RainTomorrow分组,MinTemp的分布差异一眼就能看出来——晴天和雨天的最低温度分布完全不一样,这个信息对后续特征工程直接有用。
《R in Action》那本书里用泰坦尼克号数据画过一张经典马赛克图,乘客等级、性别和存活率的关系一目了然。可视化讲数据故事,比跑10个统计检验都直观。
Distributions选项里有个隐藏功能。如果你不勾选任何图形,直接点执行,Rattle会输出一张散点图矩阵。
这张图包含所有变量,对角线是每个变量的直方图,下三角是两两变量的散点图,上三角是相关系数。变量超过15个的话可能显示不全,但前10个核心变量的关系全能看到。
这东西有什么用?快速识别多重共线性。如果两个变量的散点图呈明显线性关系,相关系数超过0.85,建模时必须二选一,不然回归系数会失真。我之前处理一个电商数据集,用户浏览时长和页面停留时间的相关系数达到0.92,两个变量同时放进模型,VIF直接飙到18,模型完全不可用。后来删掉一个,VIF降到1.3,问题解决。
把流程串一遍,实际操作就这几步:
第一步,导入数据后点击Explore标签,先点Summary,看峰度偏度和缺失值,记录异常变量。
第二步,切到Distributions,数值变量勾选箱形图和直方图,属性变量勾选条形图和马赛克图,执行出图。
第三步,不勾任何图形直接执行,拿到散点图矩阵,检查变量间的相关性。
第四步,需要换分组变量的话,去Data标签里改Target Data Type,重新执行Distributions。
整个流程跑下来,5分钟之内你对数据集的理解就超过80%的人了。
数据探索分析这件事,说白了就是建模前的"侦察"。Rattle的Explore标签把Summary、分布可视化、散点图矩阵全集成在一起,2026年了依然是最省时间的EDA工具之一。别再拿到数据就直接喂模型了,先花5分钟跑一遍探索分析,把缺失值、异常分布、变量关系全摸清楚。数据集就是一个故事,你得先读懂它,才能讲好后面的故事。
武汉格发信息技术有限公司,格发许可优化管理系统可以帮你评估贵公司软件许可的真实需求,再低成本合规性管理软件许可,帮助贵司提高软件投资回报率,为软件采购、使用提供科学决策依据。支持的软件有: CAD,CAE,PDM,PLM,Catia,Ugnx, AutoCAD, Pro/E, Solidworks 等。