Điều đó phụ thuộc vào việc phân phối các lớp học của bạn và việc xác định chỉ có thể được thực hiện với kiến thức về miền của sự cố trong tầm tay. Bạn có thể đặt các câu hỏi sau:
- Có hai lớp nào rất giống nhau và người học có đủ thông tin để phân biệt chúng không?
- Có khác biệt lớn về xác suất trước của mỗi lớp không?
Nếu có, bạn có thể phân phối lại các lớp học.
Theo kinh nghiệm của tôi, không có hại trong việc phân phối lại các lớp học, nhưng không phải lúc nào cũng cần thiết.
Điều đó thực sự phụ thuộc vào việc phân phối các lớp học của bạn. Trong trường hợp phát hiện gian lận hoặc xâm nhập, phân bố của lớp dự đoán có thể nhỏ hơn 1%. Trong trường hợp này, bạn phải phân bố đồng đều các lớp trong tập huấn luyện nếu bạn muốn trình phân loại tìm hiểu sự khác biệt giữa mỗi lớp. Nếu không, nó sẽ tạo ra một trình phân loại phân loại chính xác hơn 99% các trường hợp mà không bao giờ xác định chính xác một trường hợp gian lận, đó là toàn bộ điểm tạo một trình phân loại để bắt đầu.
Khi bạn có một tập hợp các lớp được phân bố đồng đều, bạn có thể sử dụng bất kỳ kỹ thuật nào, chẳng hạn như k-fold, để thực hiện đào tạo thực tế.
Ví dụ khác khi phân phối lớp cần được điều chỉnh, nhưng không nhất thiết trong số lượng bản ghi bằng nhau, là trường hợp xác định chữ thường của bảng chữ cái từ hình dạng của chúng.
Nếu bạn phân phối các chữ cái thường được sử dụng bằng tiếng Anh để đào tạo trình phân loại, hầu như không có trường hợp nào, nếu có, của chữ cái Q
. Mặt khác, các chữ cái O
là rất phổ biến. Nếu bạn không phân phối lại các lớp để cho phép cùng số lượng Q
's và O
' s, trình phân loại không có đủ thông tin để phân biệt Q
. Bạn cần cung cấp đủ thông tin (tức là thêm Q
s) để có thể xác định rằng Q
và O
thực sự là các chữ cái khác nhau.
Nguồn
2011-07-05 17:22:29
tôi đọc về k-fold, như được cung cấp bởi @fyr. Tôi bối rối. Sau khi tôi có các bộ huấn luyện được phân bố đồng đều trên mỗi lớp, bộ nào được tôi cung cấp để đào tạo trình phân loại để sử dụng phân loại thực tế? Trước đây của tôi là tôi tin rằng ngay cả: như c1: 90% và c2: 10%. – goh
Bạn tạo một tập dữ liệu hoàn toàn mới với các lớp được phân bố đồng đều. Sau đó bạn sử dụng dữ liệu mới này và phân vùng nó thành đào tạo, cross-val và kiểm tra khi cần thiết. k-fold là một cách rất phổ biến để phân vùng dữ liệu thành đào tạo và chéo-val. –