task1: second_hand_car_sale_price_prediction
**
首先读题: 任务的理解
**
**
接下来开始EDA-数据探索性分析
**
step1: 函数载入
1,函数载入函数及方法
2,载入需要的函数库
2.1 常见的函数库
2.1.1 数据科学库
2.1.2 数据可视化
step2:数据载入
1,数据载入函数及方法
step3:数据总览
1,数据的简略观测[.head(), .tail(), .shape, .info()]
2,相关统计量 .describe()
step4数据检测
1, 缺失值检测
2,异常值检测
step5:数据清洗
1,缺失值处理
2,异常值处理
3,数据分桶
4,特征归一化和标准化
step6:预测分布
1,总体情况分布
2,查看skeness和kurtosis
3,查看预测值的具体频数
step7:特征分析
1,数字特征
2,类别特征
step8:生成报告
总结
1)通过这次学习总体过了一遍EDA的流程
EDA的目的是为了初步探索熟悉数据,包括数据总览,了解变量间的相关性及变量与预测值之间的存在关系。
预测值的分布:这点我没有太熟悉,之前不了解。下次需要着重总结下。
EDA与特征工程处理之间的关系,还需要再进一步学习,感觉EDA主要是初略统计预览,特征工程是细调。
2)学习了一些python常用函数的用法
如append,selesct_dtypes,value_counts
3)学习了如何可视化,除了线性图,柱状图,热图,点图,小提琴图,箱状图等。还有多变量关系的可视化,
https://www.jianshu.com/p/6e18d21a4cad
4)对于变量,数值变量和类别变量的分析方法不一样,需要分别处理。
初步粗略的学习,还需要多次学习深入