Tôi có cơ sở dữ liệu về chuỗi (chiều dài tùy ý) chứa hơn một triệu mục (có thể nhiều hơn).Cách tìm kết quả mờ phù hợp nhất cho chuỗi trong cơ sở dữ liệu chuỗi lớn
Tôi cần so sánh chuỗi do người dùng cung cấp với toàn bộ cơ sở dữ liệu và truy xuất chuỗi giống hệt nếu tồn tại hoặc trả lại kết quả trùng khớp gần nhất (tương đồng 60% hoặc tốt hơn). Thời gian tìm kiếm lý tưởng là dưới một giây.
Ý tưởng của tôi là sử dụng khoảng cách chỉnh sửa để so sánh từng chuỗi db với chuỗi tìm kiếm sau khi thu hẹp các ứng viên từ db dựa trên độ dài của chúng.
Tuy nhiên, vì tôi sẽ cần phải thực hiện thao tác này rất thường xuyên, tôi đang nghĩ về việc xây dựng chỉ mục các chuỗi db để lưu trong bộ nhớ và truy vấn chỉ mục, chứ không phải db trực tiếp.
Bất kỳ ý tưởng nào về cách tiếp cận vấn đề này theo cách khác nhau hoặc cách tạo chỉ mục trong bộ nhớ?
Sử dụng nền tảng gì? – skaffman