pandas删除重复数据

1、pandas中重复索引 问题

df = df[~df.index.duplicated()]

2、pandas 删除重复数据行

# 首先导入常用的两个包
import pandas as pd
import numpy as np

# 1.删除完全重复的行
df.drop_duplicates()

2.按k列进行去重，对于重复项，保留第一次出现的值
df.drop_duplicates('k',keep='first')

3、k2和k1两列进行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep：{‘first’, ‘last’, False}, 默认值 ‘first’

first：保留第一次出现的重复行，删除后面的重复行。
last：删除前面的重复项，保留最后一次出现的重复行。
False：删除所有重复项


"""

3、drop _duplicates()函数的语法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：

su b set：表示要进去重的列名，默认为 Non e。

keep：有三个可选参数，分别是 first、las t、Fals e，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，las t 表示只保留最后一次出现的重复项，Fals e 则表示删除所有重复项。

inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。