pandas 去重及选择重复

 import cx_Oracle

import os

import pandas as pd

import numpy as np

import geopandas as gpd


yg=pd.read_excel(r"C:\Users\xuefe\Documents\乙肝项目.xlsx")


yg.info()

# duplicated 判断是否有重复项

mask=yg[['GRDA_CODE','YM_MC']].duplicated(keep=False)

#选择重复

yg[mask]


yg.duplicated()


#去重

yg[~mask]

yg['YM_MC'].drop_duplicates()


yg.drop_duplicates(['YM_MC'])


# 当keep=False时,就是去掉所有的重复行 

# 当keep=‘first'时,就是保留第一次出现的重复行 

# 当keep='last'时就是保留最后一次出现的重复行。

评论

此博客中的热门博文

V2ray websocket(ws)+tls+nginx分流

Rstudio 使用代理