文章目录
- 动手学数据分析
- Task02:数据清洗及特征处理
- 一、重点与思考
动手学数据分析
本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。
附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~
由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。
现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。
Task02:数据清洗及特征处理
链接:https://pan.baidu.com/s/1vgHMknIps9e0oiLfyUKG0Q
提取码:d8cd
一、重点与思考
筛选了一些比较重要的操作以及一些思考的回答:
【思考1】dropna和fillna有哪些参数,分别如何使用呢?
- dropna:
- axis{0 or ‘index’, 1 or ‘columns’}, default 0:删除包含缺失值的行(列)
- how{‘any’, ‘all’}, default ‘any’:所有都是na才删除,还是只要有一个na就删除
- thresh int, optional :删除到至少有多少na剩余
- subset array-like, optional:针对某几列删除删除缺失值
- inplace bool, default False:是否原地删除
- fillna:
- value scalar, dict, Series, or DataFrame:缺失值的填充值
- method{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None:填充方法,前两个根据后面一个有效值填充,‘pad’、‘ffill’根据前一个有效值填充。
- axis{0 or ‘index’, 1 or ‘columns’}:延行(列)方向填充。
- inplace bool, default False:是否原地删除
- limit int, default None:如果指定了方法,则这是要向前/向后填充的连续NaN值的最大数目。换句话说,如果与超过这个数目的连续的Nans有一个差距,它将只会被部分填补。如果未指定方法,则这是将填充NAN的整个轴上的最大条目数。如果不是零,则必须大于0。
- downcast dict, default is None:填充缺失值后是否改变某列的Dtype,可以看下面示例。
分箱操作是什么?
找到一篇写的比较清楚地blog,点击这里。
将文本变量Sex, Cabin ,Embarked用数值变量12345表示
将文本变量Sex, Cabin, Embarked用one-hot编码表示
从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)
对正则还是不太熟悉。。。