Tôi có một bản đồ số catalô vào tên sản phẩm:Làm cách nào để tìm kiếm chuỗi mờ mà không có cơ sở dữ liệu nặng?
35 cozy comforter
35 warm blanket
67 pillow
và cần một tìm kiếm sẽ tìm thấy sai chính tả, tên hỗn hợp như "cmfrter ấm".
Chúng tôi có mã bằng cách sử dụng khoảng cách chỉnh sửa (difflib), nhưng nó có thể sẽ không chia tỷ lệ thành tên 18000.
Tôi đã đạt được một cái gì đó tương tự với Lucene, nhưng như PyLucene chỉ kết thúc tốt đẹp Java sẽ phức tạp triển khai cho người dùng cuối.
SQLite thường không có đầy đủ các văn bản hoặc ghi bàn biên soạn trong.
Các Xapian bindings giống như C++ và có một số đường cong học tập.
Whoosh chưa được ghi chép đầy đủ nhưng bao gồm trình kiểm tra chính tả có thể sử dụng được.
Còn gì nữa?
Tại sao bạn nói difflib sẽ không quy mô? –
Đồng ý S.Lott. Nói có thể có nghĩa là không có phép đo, và bạn có thể đang tối ưu hóa trước ... –
Chỉ cần đo nó: quá chậm. – Tobias