Làm thế nào để loại bỏ các cột trùng lặp khỏi một khung dữ liệu bằng cách sử dụng pandas python

Tôi đã tạo tệp bằng python, kết quả là 2 cột trùng lặp. Làm thế nào để loại bỏ các cột trùng lặp từ một khung dữ liệu?

Nguồn

2013-06-05 Neer

Họ có cùng tên cột không? – waitingkuo

Có lẽ đơn giản nhất để sử dụng một groupby (giả sử họ có tên trùng lặp quá):

In [11]: df 
Out[11]: 
    A B B 
0 a 4 4 
1 b 4 4 
2 c 4 4 

In [12]: df.T.groupby(level=0).first().T 
Out[12]: 
    A B 
0 a 4 
1 b 4 
2 c 4

Nếu họ có khác nhau tên bạn có thể drop_duplicates trên transpose:

In [21]: df 
Out[21]: 
    A B C 
0 a 4 4 
1 b 4 4 
2 c 4 4 

In [22]: df.T.drop_duplicates().T 
Out[22]: 
    A B 
0 a 4 
1 b 4 
2 c 4

Thường read_csv thường sẽ đảm bảo chúng có tên khác nhau ...

Nguồn

2013-06-05 12:05:55

FYI @Andy, có một tùy chọn mới trong 0.11.1 kiểm soát '' mangle_dup_cols'' này; mặc định là TO mangle (ví dụ: tạo ra các cols độc đáo), trong 0,12, điều này sẽ thay đổi để rời khỏi các con dups tại chỗ – Jeff

Chuyển đổi là một ý tưởng tồi khi làm việc với các DataFrames lớn. Xem câu trả lời này cho giải pháp thay thế hiệu quả cho bộ nhớ: https://stackoverflow.com/a/32961145/759442

Nguồn

2015-10-06 03:24:07 kalu

Chỉ cần một lưu ý cho những người khác rằng câu trả lời tốt nhất không phải là một chấp nhận trong chủ đề đó. Câu trả lời hay nhất -> https://stackoverflow.com/a/40435354/2507197 – Alter

Đây là cách tốt nhất tôi tìm thấy từ trước đến nay.

remove = [] 
cols = df.columns 
for i in range(len(cols)-1): 
    v = df[cols[i]].values 
    for j in range(i+1,len(cols)): 
     if np.array_equal(v,df[cols[j]].values): 
      remove.append(cols[j]) 

df.drop(remove, axis=1, inplace=True)

https://www.kaggle.com/kobakhit/santander-customer-satisfaction/0-84-score-with-36-features-only/code

Nguồn

2016-04-10 12:06:04

Tôi hiểu rằng đây là một câu hỏi cũ, nhưng gần đây tôi có vấn đề này giống nhau và không ai trong số các giải pháp này làm việc cho tôi, hoặc đề nghị lặp phô diễn một overkill bit. Cuối cùng, tôi chỉ tìm thấy chỉ mục của cột trùng lặp không mong muốn và đã bỏ chỉ mục cột đó. Vì vậy, miễn là bạn biết chỉ mục của cột này sẽ hoạt động (có thể bạn có thể tìm thấy thông qua gỡ lỗi hoặc báo cáo in):

df.drop(df.columns[i], axis=1)

Nguồn

2017-06-21 17:17:41

Làm thế nào để loại bỏ các cột trùng lặp khỏi một khung dữ liệu bằng cách sử dụng pandas python

Trả lời

Các vấn đề liên quan