2012-10-11 23 views
6

Làm thế nào tôi có thể mã hóa một chuỗi trong lớp java bằng cách sử dụng phân tích cú pháp stanford?stanford nlp tokenizer

Tôi chỉ có thể tìm thấy các ví dụ về documentProcessor và PTBTokenizer lấy văn bản từ tệp bên ngoài.

DocumentPreprocessor dp = new DocumentPreprocessor("hello.txt"); 
    for (List sentence : dp) { 
    System.out.println(sentence); 
    } 
    // option #2: By token 

    PTBTokenizer ptbt = new PTBTokenizer(new FileReader("hello.txt"), 
      new CoreLabelTokenFactory(), ""); 
    for (CoreLabel label; ptbt.hasNext();) { 
    label = (CoreLabel) ptbt.next(); 
    System.out.println(label); 
    } 

Cảm ơn.

Trả lời

6

PTBTokenizer constructor mất một java.io.Reader, sau đó bạn có thể sử dụng một StringReader để phân tích văn bản của bạn

+0

Bạn có thể viết mã cho nhà xây dựng và làm thế nào tôi có thể sử dụng đầu đọc với điều này. Cảm ơn – Naveen

+4

không bao giờ nhớ, điều này là cho tôi thẻ: Danh sách rawWords = tokenizerFactory.getTokenizer (new StringReader (câu)). Tokenize(); System.out.println (rawWords.get (0) .value()); – Naveen

+1

Tôi đã dành chút thời gian để mở NetBeans, tạo một Dự án mới, v.v ... sau đó mất điện ... damn ... – CapelliC