Có cách nào để ngăn chặn các từ ngắn hơn giá trị được chỉ định kết thúc trong tsvector
không? MySQL có tùy chọn ft_min_word_len
, có điều gì đó tương tự với PostgreSQL không?Cách xác định độ dài từ tối thiểu trong tìm kiếm văn bản đầy đủ của PostgreSQL?
8
A
Trả lời
3
Câu trả lời ngắn gọn là không.
Các tsearch2 sử dụng từ điển để bình thường hóa các văn bản:
Từ điển được sử dụng để loại bỏ những từ mà không nên được coi trong một tìm kiếm (dừng từ), và bình thường hóa từ để khác nhau các hình thức có nguồn gốc từ cùng một từ sẽ khớp. Một từ được chuẩn hóa thành công được gọi là từ vựng.
và làm thế nào các từ điển được sử dụng Parsing and Lexing
+0
Sau đó, tôi sẽ văn bản xử lý trước và chữ thay lời ngắn với X. Sau đó, tôi có thể xác định X, XX, XXX ... là từ dừng. Vị trí sẽ được preserverd và từ ngắn sẽ không được lập chỉ mục. –
nó sẽ là tốt để cung cấp cho chúng với một số trường hợp sử dụng – mys