pandas 去重及选择重复
import cx_Oracle
import os
import pandas as pd
import numpy as np
import geopandas as gpd
yg=pd.read_excel(r"C:\Users\xuefe\Documents\乙肝项目.xlsx")
yg.info()
# duplicated 判断是否有重复项
mask=yg[['GRDA_CODE','YM_MC']].duplicated(keep=False)
#选择重复
yg[mask]
yg.duplicated()
#去重
yg[~mask]
yg['YM_MC'].drop_duplicates()
yg.drop_duplicates(['YM_MC'])
# 当keep=False时,就是去掉所有的重复行
# 当keep=‘first'时,就是保留第一次出现的重复行
# 当keep='last'时就是保留最后一次出现的重复行。
评论
发表评论