当前位置: 代码迷 >> 综合 >> 数据分析:Task2-数据清洗及特征处理
  详细解决方案

数据分析:Task2-数据清洗及特征处理

热度:21   发布时间:2024-02-13 07:57:22.0

1.重复值,df.duplicated()

drop_duplicates,删除整行重复值

2.连续型变量离散化(分箱)

1.将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示

df["box"] = pd.cut(df["年龄"],5,labels=["1","2","3","4","5"])

2.#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])
df.head(3)

3.查看文本类变量类别及替换

查看

1.df['Sex'].value_counts()
2.df['Sex'].unique()

替换
方法1

df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])

方法2

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})

4.extract函数

提取函数:返回数组中满足某个条件的元素
Series.str.extract(pat, flags=0, expand=None)
参数:
pat : 字符串或正则表达式
flags : 整型,
expand : 布尔型,是否返回数据框
Returns:
数据框dataframe/索引index