# -*- coding: utf-8 -*-
import pandas as pdfrom pandas import Series,DataFrameimport numpy as np'''
移除重复数据
'''
data=DataFrame({'k1':['one']*4+['two']*3,'k2':[1,1,2,3,3,4,4]})
print(data)
# k1 k2
# 0 one 1
# 1 one 1
# 2 one 2
# 3 one 3
# 4 two 3
# 5 two 4
# 6 two 4#判断是否是重复行
print(data.duplicated())
# 0 False
# 1 True
# 2 False
# 3 False
# 4 False
# 5 False
# 6 True
# dtype: bool#返回去重行
print(data.drop_duplicates())
# k1 k2
# 0 one 1
# 2 one 2
# 3 one 3
# 4 two 3
# 5 two 4#重新赋值一列
data['v1']=range(7)
print(data)
# k1 k2 v1
# 0 one 1 0
# 1 one 1 1
# 2 one 2 2
# 3 one 3 3
# 4 two 3 4
# 5 two 4 5
# 6 two 4 6#指定重复列
print(data.drop_duplicates(['k1']))
# k1 k2 v1
# 0 one 1 0
# 4 two 3 4#传入take_last保存最后一个
print(data.drop_duplicates(['k1','k2'],keep='last'))
# k1 k2 v1
# 1 one 1 1
# 2 one 2 2
# 3 one 3 3
# 4 two 3 4
# 6 two 4 6'''
利用函数或者映射进行数据转换
'''
data=DataFrame({'key':['北京','上海','广州','深圳','上海','广州','深圳'],'value':[11,22,33,44,66,77,88]})#编写映射文档
ys={'北京':'烤鸭','上海':'娘娘腔','广州':'叶问','深圳':'腾讯'}data['logo']=data['key'].map(ys)
print(data)
# key value logo
# 0 北京 11 烤鸭
# 1 上海 22 娘娘腔
# 2 广州 33 叶问
# 3 深圳 44 腾讯
# 4 上海 66 娘娘腔
# 5 广州 77 叶问
# 6 深圳 88 腾讯#lambda函数
data['logo']=data['key'].map(lambda x:ys[x])print(data)
# key value logo
# 0 北京 11 烤鸭
# 1 上海 22 娘娘腔
# 2 广州 33 叶问
# 3 深圳 44 腾讯
# 4 上海 66 娘娘腔
# 5 广州 77 叶问
# 6 深圳 88 腾讯'''
替换值replace
'''
data2=Series([1,2,3,5,4,6,7])
print(data2)print(data2.replace([1],'换1'))print(data2.replace([1,2],['换1','换2']))print(data2.replace({2:'huan',3:000}))'''
修改索引名称
'''
data=DataFrame(np.arange(12).reshape(3,4),index=['Hao','Haong','Bo'],columns=list('name'))
print(data)
#Index(['HAO', 'HAONG', 'BO'], dtype='object')
print(data.index.map(str.upper))#获取索引名,将索引名字母大写uppper后面没有括号#赋值给索引
data.index=data.index.map(str.upper)
print(data)
# n a m e
# HAO 0 1 2 3
# HAONG 4 5 6 7
# BO 8 9 10 11#修改列名print(data.rename(index=str.title,columns=str.upper))
# N A M E
# Hao 0 1 2 3
# Haong 4 5 6 7
# Bo 8 9 10 11print(data.rename(index={'HAO':'郝'},columns={'n':'NN'}))
# NN a m e
# 郝 0 1 2 3
# HAONG 4 5 6 7
# BO 8 9 10 11
详细解决方案
python数据分析十五:pandas矩阵数据的删除重复数据和重命名(duplicated、rename)
热度:6 发布时间:2023-12-27 05:59:55.0
相关解决方案
- ubuntu9.04上安装mic2 出错 (python setup.py build)
- ubuntu9.04下安装mic2 出错 (python setup.py build),该如何解决
- Qt4 设计员 无法生成 python 代码
- 请教如何理解JAVA、C++ Perl、PHP、Ruby、Python
- Qt4 设计师 无法生成 python 代码,该如何解决
- python sybase装配
- 怎么让 rename 命令对大小写不敏感
- python fastcgi怎么获取POST的数据字段
- python(django框架) + mysql 的编码有关问题,求解
- 关于Vista启动TOMCAT错误问题java.io.IOException: Cannot rename original ...
- 在intellij IDE 中配置完服务器出现“duplicated context path ‘/’”错误
- python html parser库lxml的引见和使用
- python html 转义有关
- Python 用HTMLParser解析HTML资料
- python fastcgi怎么获取POST的数据字段
- python 模拟Web登录与上载
- [Python]web服务器小结篇
- Python 于 webgame 的应用(上)
- SAE python web.py bootstrap 开发记要
- Python WEB运用框架纵览
- 一般目录上 Python 建立 Web 文件服务
- 数目字代码把大数据数字口语化(python+js) 数字代码
- python JSON string 的中文有关问题
- python 兑现新版websocket协议 server
- 【python 学习之web篇】用python 3.1.2兑现crawler-C
- python――施用yaml数据格式,PK -> XML,JSON
- Learn Python The Hard Way学习(52) - 开始您的web游戏
- Python 自然语言处理
- Python 相关有关问题
- 菜鸟,先学JAVA,还是Ruby,python