MATLAB特征选择算法在数据挖掘中的实战应用

数据特征工程的定义:是将数据转换为更能有效表示潜在问题的特征,从而提高机器学习性能。主要包括以下五个部分:数据理解(主要在EDA部分完成)、数据清洗、特征构造、特征选择和解决类别不平衡问题。


数据清洗(注意,这部分只在训练集上进行)的目的是提高数据质量,降低算法用错误数据建模的风险。其中包括特征变换(如定性变量编码、标准化和归一化)、缺失值处理(不处理、删除或补全)、异常值处理等。


特征构造的目的是增加数据的表达性,添加一些先验知识。包括统计量特征、时间特征、地理信息、非线性变换、数据分桶和特征组合/交叉。


特征选择的目的是平衡预测能力和计算复杂度,降低噪声,增强模型预测性能。方法包括过滤式、包裹式和嵌入式。


解决类别不平衡问题的方法包括扩充数据集、尝试其他评价指标、调整theta值、重采样、合成样本、选择树型模型等。


同时还包括一些问题的处理,如树型模型对离散特征进行one-hot编码的建议,长尾分布截断的意义,以及处理一些模型上表现不理想的特征的方法。

免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空