微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。
摘要:通常在大厂实际项目中会使用Spark来处理大规模数据下的数据挖掘和分析相关工作。本篇从项目实战中总结常用的Spark特征处理实例,方便小伙伴们更好的使用Spark做数据挖掘相关的工作。
目录
01 特征处理的意义
02 特征提取
03 特征转换
04 特征选择
01 特征处理的意义
在数据挖掘项目中,由于我们获取的原始数据中包含很多噪声,所以在真正提供给模型前需要特征处理处理工作,否则再好的模型也只能“Garbage in,gar