数据特征工程的定义:是将数据转换为更能有效表示潜在问题的特征,从而提高机器学习性能。主要包括以下五个部分:数据理解(主要在EDA部分完成)、数据清洗、特征构造、特征选择和解决类别不平衡问题。
数据清洗(注意,这部分只在训练集上进行)的目的是提高数据质量,降低算法用错误数据建模的风险。其中包括特征变换(如定性变量编码、标准化和归一化)、缺失值处理(不处理、删除或补全)、异常值处理等。
特征构造的目的是增加数据的表达性,添加一些先验知识。包括统计量特征、时间特征、地理信息、非线性变换、数据分桶和特征组合/交叉。
特征选择的目的是平衡预测能力和计算复杂度,降低噪声,增强模型预测性能。方法包括过滤式、包裹式和嵌入式。
解决类别不平衡问题的方法包括扩充数据集、尝试其他评价指标、调整theta值、重采样、合成样本、选择树型模型等。
同时还包括一些问题的处理,如树型模型对离散特征进行one-hot编码的建议,长尾分布截断的意义,以及处理一些模型上表现不理想的特征的方法。
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删