2010-07-01 9 views
15

Tôi phải phân tích văn bản tiếng Anh không chính thức với rất nhiều bàn tay ngắn và lingo địa phương. Do đó tôi đã suy nghĩ của việc tạo ra các mô hình cho các stanford tagger.làm cách nào để tạo tài liệu đào tạo của riêng tôi cho trình gắn thẻ stanford?

Làm cách nào để tạo tập hợp nhãn có nhãn của riêng tôi cho trình gắn thẻ stanford để đào tạo?

Cú pháp của kho văn bản là bao lâu và tập hợp của tôi để đạt được hiệu suất mong muốn?

+0

Thành phần nào: trình gắn thẻ Stanford PoS hoặc Stanford NER hoặc Stanford Parser? –

+0

Thưa goh, tôi có cùng một câu hỏi, bạn có thể giải quyết vấn đề của mình không? làm sao? – Paniz

Trả lời

7

Để đào tạo PoS tagger, xem this mailing list post mà cũng được bao gồm trong JavaDocs cho lớp MaxentTagger.

Các javadocs cho edu.stanford.nlp.tagger.maxent.Train class quy định các định dạng đào tạo:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

+0

Tôi đã kiểm tra ở khắp mọi nơi nhưng nó không chỉ định cách cấu trúc tệp đào tạo? Và mô hình đào tạo của tôi sẽ kéo dài bao lâu? – goh

+0

@goh: Tôi đã trả lời chỉnh sửa. –

+0

cảm ơn sự giúp đỡ. – goh

1

Đối với trình phân tích cú pháp Stanford, bạn sử dụng Penn treebank format và xem Stanford's FAQ về các lệnh chính xác để sử dụng. JavaDocs cho LexicalizedParser class cũng cung cấp cho các lệnh thích hợp, cụ thể:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ 
    -train trainFilesPath fileRange 
    -saveToSerializedFile serializedGrammarFilename 
6

Về cơ bản, các văn bản mà bạn định dạng cho quá trình đào tạo nên có một chiếc thẻ trên mỗi dòng, theo sau là một tab, tiếp theo là một định danh. Mã định danh có thể giống như "LOC" cho vị trí, "COR" cho công ty hoặc "0" cho mã thông báo không phải của tổ chức. Ví dụ.

I  0 
left  0 
my  0 
heart  0 
in  0 
Kansas  LOC 
City  LOC 
.  0 

Khi nhóm của chúng tôi được đào tạo một loạt các phân loại, chúng tôi ăn mỗi tập tin đào tạo được định dạng như thế này với khoảng 180.000 thẻ, và chúng ta đã thấy một sự cải thiện độ chính xác ròng nhưng giảm ròng trong thu hồi. Trong trường hợp nó có thể hữu ích cho người khác, tôi mô tả quá trình chúng tôi sử dụng để đào tạo phân loại cũng như các giá trị p, r và f1 của cả hai được đào tạo và mặc định phân loại here.

0

tôi đã cố gắng: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

Nhưng tôi đã có lỗi:

Lỗi: Không thể tìm hoặc tải lớp chính edu.stanford.nlp.parser.lexparser.LexicalizedParser