Tôi đang gặp phải một chút vấn đề liên quan đến biểu thức chính quy và CategorizedPlaintextCorpusReader
bằng Python.Tạo một kho dữ liệu được phân loại tùy chỉnh trong NLTK và Python
Tôi muốn tạo một kho văn bản được phân loại tùy chỉnh và đào tạo một trình phân loại Naive-Bayes trên đó. Vấn đề của tôi là như sau: Tôi muốn có hai loại, "pos" và "neg". Các tệp dương nằm trong một thư mục, main_dir/pos/*.txt
và các tệp phủ định nằm trong một thư mục riêng biệt, main_dir/neg/*.txt
.
Làm cách nào để sử dụng CategorizedPlaintextCorpusReader
để tải và gắn nhãn tất cả các tệp dương trong thư mục pos và thực hiện tương tự cho các tệp phủ định?
NB: Thiết lập hoàn toàn giống với đơn vị tổ chức Movie_reviews
(~nltk_data\corpora\movie_reviews
).
xem http://stackoverflow.com/questions/29275614/using-my-own-corpus-instead-of-movie-reviews-corpus-for-classification-in-nltk – alvas