Tôi đang cố gắng phân loại tài liệu bằng cách sử dụng API java của Weka.Giải thích đầu ra của StringToWordVector() - Weka
Đây là cấu trúc thư mục của tôi trong các tệp dữ liệu.
+- text_example
|
+- class1
| |
| 3 html files
|
+- class2
| |
| 1 html file
|
+- class3
|
3 html files
Tôi có tệp 'arff' được tạo bằng 'TextDirectoryLoader'. Sau đó, tôi sử dụng bộ lọc StringToWordVector
trên tệp arff đã tạo, với filter.setOutputWordCounts(true)
.
Dưới đây là mẫu của đầu ra khi bộ lọc được áp dụng. Tôi cần làm rõ vài điều.
@attribute </form> numeric
@attribute </h1> numeric
.
.
@attribute earth numeric
@attribute easy numeric
Danh sách lớn này phải là mã thông báo nội dung của tệp html ban đầu. đúng?
Sau đó, tôi có,
@data
{1 2,3 2,4 1,11 1,12 7,..............}
{10 4,34 1,37 5,.......}
{2 1,5 6,6 16,...}
{0 class2,34 11,40 15,.....,4900 3,...
{0 class3,1 2,37 3,40 5....
{0 class3,1 2,31 20,32 17......
{0 class3,32 5,42 1,43 10.........
tại sao không có thuộc tính lớp cho 3 mục đầu tiên? (cần có class1). 0 hàng đầu có nghĩa là gì trong {0 class2, ..}, {0 class3 ..}. Ví dụ: Ví dụ: trong tệp html thứ 3 trong thư mục class3, từ được xác định bằng số nguyên 32 xuất hiện 5 lần. Chỉ để xem làm thế nào để tôi nhận được từ (token) được giới thiệu bởi 32?
Làm cách nào để giảm thứ nguyên của vectơ nổi bật? chúng ta không cần phải làm cho tất cả các vectơ đặc trưng có cùng kích thước không? (giống như chỉ xem xét 100 từ thường xuyên nhất từ tập huấn luyện và sau này khi nói đến thử nghiệm, hãy xem xét sự xuất hiện của chỉ 100 từ trong tài liệu kiểm tra. Bởi vì, theo cách này, điều gì sẽ xảy ra nếu chúng ta tìm ra một từ hoàn toàn mới trong giai đoạn thử nghiệm, trình phân loại có bỏ qua nó không?).
Tôi có thiếu gì đó ở đây không? Tôi mới đến Weka.
Ngoài ra tôi thực sự đánh giá cao sự trợ giúp nếu ai đó có thể giải thích cho tôi cách trình phân loại sử dụng vectơ này được tạo bằng bộ lọc StringToWordVector
. (như tạo từ vựng với dữ liệu đào tạo, giảm kích thước, là những từ đang xảy ra bên trong mã Weka?)
Có ans là hơi muộn, nơi tôi đã học được câu trả lời của bản thân mình. Nhưng cảm ơn câu trả lời của bạn và tôi chấp nhận nó. Hey bạn có bất kỳ kinh nghiệm với một lớp phân loại với libsvm (wrapper) trong weka? Tôi bị kẹt với nó – KillBill
@ user601 Không, xin lỗi. Tôi đã không bao giờ sử dụng libsvm trong Weka. Chỉ cần ra khỏi tò mò: là bạn viết một luận án về một số máy học/khai thác dữ liệu chủ đề của bất kỳ cơ hội? – Malhelo
vâng tôi đang làm luận án năm cuối của tôi liên quan đến phân loại văn bản. Bạn đang làm một cái gì đó tương tự? – KillBill