StandardTokenizerFactory: -
Nó tokenizes trên khoảng trắng, cũng như dải ký tự
Tài liệu: -
Tách lời tại ký tự chấm câu, loại bỏ punctuations. Tuy nhiên, một dấu chấm không được theo sau bởi khoảng trắng được coi là một phần của một mã thông báo. Chia tách các từ bằng dấu gạch ngang, trừ khi có một số trong mã thông báo . Trong trường hợp đó, toàn bộ mã thông báo được hiểu là một số sản phẩm và không được chia nhỏ. Nhận dạng địa chỉ email và Internet tên máy chủ dưới dạng một mã thông báo.
Sẽ sử dụng điều này cho các trường nơi bạn muốn tìm kiếm trên dữ liệu trường.
ví dụ: -
http://example.com/I-am+example?Text=-Hello
sẽ tạo ra 7 thẻ (cách nhau bằng dấu phẩy) -
http,example.com,I,am,example,Text,Hello
KeywordTokenizerFactory: -
từ khóa Tokenizer không chia đầu vào ở tất cả.
Không xử lý được thực hiện trên chuỗi và toàn bộ chuỗi được coi là một thực thể duy nhất.
Điều này thực sự không thực hiện bất kỳ mã thông báo nào. Nó trả về văn bản gốc dưới dạng một từ.
Được sử dụng chủ yếu cho các yêu cầu sắp xếp hoặc cạnh, nơi bạn muốn khớp chính xác khi lọc trên nhiều từ và sắp xếp khi sắp xếp không hoạt động trên các trường được mã hóa.
ví dụ:
http://example.com/I-am+example?Text=-Hello
sẽ tạo ra một thẻ duy nhất -
http://example.com/I-am+example?Text=-Hello
StandardTokenizerFactory không chia trên tất cả các dấu chấm câu, ví dụ như một từ có chứa một dấu nháy đơn (ví dụ 'can't'' won't' vv) sẽ được để nguyên vẹn. – Qwerky
yup. như đã đề cập, nó không phân chia trên tất cả các ký tự đặc biệt hoặc loại bỏ tất cả các ký tự đặc biệt. Nó có các quy tắc nhất định. – Jayendra