Tôi đã luôn luôn nghĩ rằng từ những gì tôi đọc mà kiểm chứng chéo được thực hiện như thế này:Chữ thập Validation trong Weka
Trong cross-validation k lần, mẫu ban đầu là ngẫu nhiên phân chia thành k subsamples. Trong số mẫu phụ k, một mẫu phụ duy nhất được giữ lại làm dữ liệu xác nhận để kiểm tra mô hình và các mẫu phụ k - 1 còn lại được sử dụng làm dữ liệu huấn luyện. Quá trình xác nhận chéo sau đó được lặp lại k lần (các nếp gấp), với mỗi mẫu con k được sử dụng chính xác một lần làm dữ liệu xác thực. Các k kết quả từ những nếp gấp sau đó có thể được lấy trung bình (hoặc kết hợp) để tạo ra một ước lượng đơn
Vì vậy, mô hình k được xây dựng và một trong những trận chung kết là mức trung bình của những người. Trong hướng dẫn Weka được viết rằng mỗi mô hình luôn được xây dựng bằng cách sử dụng TẤT CẢ bộ dữ liệu. Vậy việc xác nhận chéo trong Weka hoạt động như thế nào? Mô hình được xây dựng từ tất cả dữ liệu và "xác thực chéo" có nghĩa là k fold được tạo sau đó mỗi lần được đánh giá trên đó và kết quả đầu ra cuối cùng đơn giản là kết quả trung bình từ các nếp gấp?
Tôi có 2 câu hỏi: 1) Nếu như bạn đã nói lý do tại sao trong Hướng dẫn Weka được viết rằng trong mỗi trường hợp (tập huấn luyện và CV) mô hình luôn được xây dựng từ tất cả dữ liệu? Như bạn đã viết trong CV mô hình cuối cùng là trung bình của 10 mô hình khác, phải không?2) Nếu "Mô hình bạn nhận được tại thời điểm này là mức trung bình của tất cả 10 mô hình", có thể sử dụng tập huấn luyện và CV như xác thực tôi đã nhận được các mô hình tương tự như thế nào? (Hy vọng những câu hỏi này không xuất hiện quá ngớ ngẩn!) –
1. Điều này có nghĩa là cho mỗi lần tập dữ liệu đầy đủ được xem xét. Có một số biến thể của CV chuẩn này, nơi một phần của bộ dữ liệu được tổ chức để kiểm tra riêng. 2. Chính xác bạn có ý gì bằng cách "lấy cùng một mô hình"? –
Đối với "cùng một kiểu máy", tôi có nghĩa là ở đầu ra, tôi đã có cùng một cây chính xác –