Câu hỏi của tôi khá liên quan đến this one, nhưng tôi quyết định mở một chuỗi câu hỏi khác. Tôi hy vọng nó là tốt.Tập tin spam nào tôi có thể sử dụng trong NLTK?
Tôi cũng đang xây dựng bộ lọc spam bằng cách sử dụng NLTK bằng Python, nhưng tôi mới bắt đầu.
Tôi tự hỏi thư rác nào tôi có thể sử dụng và cách nhập nó? Tôi đã không tìm thấy bất kỳ 'thư viện spam tích hợp' của NLTK (here).
Cảm ơn bạn trước.
Cảm ơn bạn, đó là một liên kết tuyệt vời! :) – Lain
Tôi tin rằng những dữ liệu đó được bao gồm trong tập dữ liệu TREC. Cũng có một số cuộc tranh luận về phân loại. John Graham-Cumming đã làm một nghiên cứu tiếp theo; có lẽ bạn cũng có thể lấy được dữ liệu của mình. Tôi không thể nhanh chóng xác định báo cáo cuối cùng của anh ấy nhưng đây là một con trỏ tạm thời: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Có lẽ ấn bản cuối cùng của anh ấy là cho CEAS 2006 hoặc Hội nghị Thư rác MIT năm 2007? – tripleee
Cảm ơn bạn lần nữa :) Bộ dữ liệu TREC cũng rất tuyệt, nhưng "Giả định về rủi ro" của họ hơi quá nhiều. Nó có lẽ không chứa virus máy tính quá phức tạp, nhưng tôi quyết định đi cho bộ dữ liệu Enron được xử lý trước. Tôi có thể thay thế nó sau, nếu nó không đủ lớn. Liên kết thực sự thú vị, tôi chắc chắn sẽ kiểm tra xem phân loại spam/ham có đáng tin cậy trong Enron hay không. – Lain