Làm cách nào tôi có thể đặt khung dữ liệu ví dụ sau để chỉ trả lại một số quan sát cho sự xuất hiện sớm nhất [tức là phút (năm)] của mỗi id?Nhóm dữ liệu nhóm con R trên giá trị của các biến trùng lặp
id <- c("A", "A", "C", "D", "E", "F")
year <- c(2000, 2001, 2001, 2002, 2003, 2004)
qty <- c(100, 300, 100, 200, 100, 500)
df=data.frame(year, qty, id)
Trong ví dụ trên có hai quan sát cho "A" id ở năm 2000 và năm 2001. Trong trường hợp trùng lặp của id, tôi muốn khung dữ liệu tập hợp con để chỉ bao gồm những sự xuất hiện đầu tiên (tức là vào năm 2000) của các quan sát cho id trùng lặp.
df2 = subset(df, ???)
Đây là những gì tôi đang cố gắng để trở lại:
df2
year qty id
2000 100 A
2001 100 C
2002 200 D
2003 100 E
2004 500 F
Bất kỳ trợ giúp sẽ được đánh giá rất nhiều.
giải pháp trực quan tuyệt vời. Cảm ơn nhiều. – MikeTP