Chạy ví dụ rừng ngẫu nhiên từ http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/data, dòng sau:Problematic runtime đào tạo rừng ngẫu nhiên khi sử dụng giao diện công thức
forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000)
mất giờ (không chắc liệu nó sẽ không bao giờ kết thúc, nhưng quá trình này không có vẻ làm việc) .
Tập dữ liệu có 1128 hàng và ~ 7000 biến.
Có thể ước tính khi nào việc đào tạo Rừng Ngẫu nhiên sẽ kết thúc không? Tôi có thể lập hồ sơ R bằng cách nào đó để có thêm thông tin không?
Bạn có thể chạy một vài mẫu với 'ntree = 100 'sau đó' ntree = 500' vv ... Và tìm ra số lượng thời gian mà mỗi máy tính của bạn sử dụng với số biến, bộ xử lý (nếu bạn đang sử dụng song song), vv, sau đó vẽ kết quả của bạn và bạn có thể ngoại suy thời gian cho 'ntree = 10000' –
là thời gian chạy rừng ngẫu nhiên có phải là tuyến tính về số lượng cây không? – itamarb