2012-03-26 37 views
7

Câu hỏi của tôi khá liên quan đến this one, nhưng tôi quyết định mở một chuỗi câu hỏi khác. Tôi hy vọng nó là tốt.Tập tin spam nào tôi có thể sử dụng trong NLTK?

Tôi cũng đang xây dựng bộ lọc spam bằng cách sử dụng NLTK bằng Python, nhưng tôi mới bắt đầu.

Tôi tự hỏi thư rác nào tôi có thể sử dụng và cách nhập nó? Tôi đã không tìm thấy bất kỳ 'thư viện spam tích hợp' của NLTK (here).

Cảm ơn bạn trước.

Trả lời

9

Điều này presentation sử dụng enron-spam dataset (200.000 email).

Việc đào tạo và thử nghiệm bộ đến từ một tập dữ liệu của 200,000+ Enron email mà chứa cả “spam” và “ham” email

+1

Cảm ơn bạn, đó là một liên kết tuyệt vời! :) – Lain

+0

Tôi tin rằng những dữ liệu đó được bao gồm trong tập dữ liệu TREC. Cũng có một số cuộc tranh luận về phân loại. John Graham-Cumming đã làm một nghiên cứu tiếp theo; có lẽ bạn cũng có thể lấy được dữ liệu của mình. Tôi không thể nhanh chóng xác định báo cáo cuối cùng của anh ấy nhưng đây là một con trỏ tạm thời: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Có lẽ ấn bản cuối cùng của anh ấy là cho CEAS 2006 hoặc Hội nghị Thư rác MIT năm 2007? – tripleee

+0

Cảm ơn bạn lần nữa :) Bộ dữ liệu TREC cũng rất tuyệt, nhưng "Giả định về rủi ro" của họ hơi quá nhiều. Nó có lẽ không chứa virus máy tính quá phức tạp, nhưng tôi quyết định đi cho bộ dữ liệu Enron được xử lý trước. Tôi có thể thay thế nó sau, nếu nó không đủ lớn. Liên kết thực sự thú vị, tôi chắc chắn sẽ kiểm tra xem phân loại spam/ham có đáng tin cậy trong Enron hay không. – Lain

1

Spam không khó để có được. Thư rác mới hợp lý với số lượng lớn cũng không nhất thiết là một thách thức lớn; câu hỏi hóc búa lớn là làm thế nào để có được ham. Nếu bạn chỉ xây dựng bộ lọc thư rác của riêng bạn, tất nhiên, bạn có thể sử dụng ham của riêng bạn.

SpamAssassin Public Corpus đang trở nên rất cũ, nhưng ở đó bạn có nó; http://spamassassin.apache.org/publiccorpus/

Ngoài ra còn có các corpora từ theo dõi spam TREC, có phần lớn hơn, nhưng không có nhiều mới hơn hoặc kém thành kiến ​​hơn; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

Những người đam mê khác nhau tiếp tục xuất bản spam của họ trên web, nhưng hầu hết không bao gồm tiêu đề đầy đủ v.v. Nếu bạn chỉ quan tâm đến bộ lọc "túi từ", có thể đủ tốt.

+0

Cảm ơn bạn rất nhiều vì câu trả lời của bạn và các liên kết. Tôi đang triển khai hai bộ lọc spam để kiểm tra xem phân loại mang tính phân biệt hoặc phân biệt đối xử có hoạt động tốt hơn đối với tác vụ lọc spam hay không. – Lain