pandas 去重及选择重复

import cx_Oracle

import os

import pandas as pd

import numpy as np

import geopandas as gpd

yg=pd.read_excel(r"C:\Users\xuefe\Documents\乙肝项目.xlsx")

yg.info()

# duplicated 判断是否有重复项

mask=yg[['GRDA_CODE','YM_MC']].duplicated(keep=False)

#选择重复

yg[mask]

yg.duplicated()

#去重

yg[~mask]

yg['YM_MC'].drop_duplicates()

yg.drop_duplicates(['YM_MC'])

# 当keep=False时，就是去掉所有的重复行

# 当keep=‘first'时，就是保留第一次出现的重复行

# 当keep='last'时就是保留最后一次出现的重复行。

xuefliang