良好的开端是成功的一半,好多特征工程可以促使模型得到更高的精度。
实际生产过程中的数据不全是干净的,大部分都是dirty的。需要我们做数据填充
时间格式处理
异常值处理
数据分箱
Filter特征选择