1.重复值,df.duplicated()
drop_duplicates,删除整行重复值
2.连续型变量离散化(分箱)
1.将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
df["box"] = pd.cut(df["年龄"],5,labels=["1","2","3","4","5"])
2.#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])
df.head(3)
3.查看文本类变量类别及替换
查看
1.df['Sex'].value_counts()
2.df['Sex'].unique()
替换
方法1
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
方法2
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
4.extract函数
提取函数:返回数组中满足某个条件的元素
Series.str.extract(pat, flags=0, expand=None)
参数:
pat : 字符串或正则表达式
flags : 整型,
expand : 布尔型,是否返回数据框
Returns:
数据框dataframe/索引index