Có thể áp dụng RandomForests cho các tập dữ liệu rất nhỏ không? Tôi có tập dữ liệu với nhiều biến nhưng chỉ có 25 biến quan sát. Rừng ngẫu nhiên tạo ra kết quả hợp lý với sai số OOB thấp (10-25%). Có quy tắc nào liên quan đến số lượng quan sát tối thiểu để sử dụng không? Trong thực tế, một trong những biến trả lời là không cân bằng, và nếu tôi sẽ subsample nó tôi sẽ kết thúc với một số lượng thậm chí còn nhỏ hơn của các quan sát. Cảm ơn trướcSố quan sát tối thiểu khi thực hiện Rừng Ngẫu nhiên
5
A
Trả lời
3
Có thể sử dụng RF hoàn toàn trên các loại bộ dữ liệu này (ví dụ: p> n). Trong thực tế, họ sử dụng RF trong các lĩnh vực như genomics nơi số lượng các lĩnh vực> = 20000 và chỉ có một số lượng rất nhỏ của hàng - nói 10-12. Toàn bộ vấn đề là tìm ra biến số 20k nào sẽ tạo nên một điểm đánh dấu phân tích (tức là lựa chọn tính năng là toàn bộ vấn đề).
Tôi không có bất kỳ ROT nào về kích thước tối thiểu khác nếu mô hình của bạn không hoạt động tốt trên mẫu được giữ lại (hoặc xác thực chéo một lần nữa có thể hoạt động tốt trong trường hợp của bạn). thứ gì khác.
Hy vọng điều này sẽ giúp
Bộ đào tạo chứa bao nhiêu tính năng? – jonnydedwards
Nó chứa 33 dự báo và 4 biến trả lời (tôi nên thực hiện 4 RF) – Oritteropus
kiểm tra [this] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size- for-multiple-regression) cho chẩn đoán. – jonnydedwards