Tôi mới đến khu vực đó và tôi tự hỏi phần lớn nhà nước-nghệ thuật là gì và nơi tôi có thể đọc về nó. Giả sử rằng tôi chỉ có một kho khóa/giá trị và tôi có khoảng cách (key1, key2) được xác định bằng cách nào đó (không chắc đó có phải là số liệu hay không, tức là nếu bất đẳng thức tam giác phải giữ luôn).cách tìm kiếm mờ trong dữ liệu lớn
Điều tôi muốn chủ yếu là chức năng tìm kiếm (khóa) trả về cho tôi tất cả các mục có khóa tới khoảng cách nhất định đến khóa tìm kiếm. Có lẽ giới hạn khoảng cách đó có thể cấu hình được. Có lẽ đây cũng chỉ là một iterator lười biếng. Có lẽ cũng có thể có một giới hạn đếm và một mục (khóa, giá trị) là với một số P xác suất trong tập hợp trả về trong đó P = 1/khoảng cách (khóa, khóa tìm kiếm) hoặc hơn (tức là, kết hợp hoàn hảo chắc chắn sẽ là trong tập hợp và kết quả trùng khớp ít nhất với xác suất cao).
Một ví dụ ứng dụng là phù hợp với vân tay trong MusicBrainz. Họ sử dụng dấu vân tay AcoustId và đã xác định this compare function. Họ sử dụng chỉ số Gre PostgreSQL và tôi đoán (mặc dù tôi chưa hiểu hết/đọc mã acoustid-server) GIN Partial Match Algorithm nhưng tôi chưa hoàn toàn hiểu rằng đó là những gì tôi yêu cầu và cách nó hoạt động.
Đối với văn bản, những gì tôi đã tìm thấy cho đến nay là sử dụng một số phonetic algorithm để đơn giản hóa lời dựa trên phát âm của họ. Ví dụ là here. Điều này chủ yếu là để phá vỡ không gian tìm kiếm xuống một không gian nhỏ hơn. Tuy nhiên, điều đó có một số hạn chế, ví dụ: nó vẫn phải là một trận đấu hoàn hảo trong không gian nhỏ hơn.
Nhưng dù sao, tôi cũng đang tìm kiếm một giải pháp chung chung hơn, nếu điều đó tồn tại.
Không phải là một câu trả lời hoàn chỉnh, nhưng có cái nhìn tại VP-cây (http://en.wikipedia.org/wiki/Vp-tree và http: // stevehanov .ca/blog/index.php? id = 130). Chúng cho phép truy vấn nhanh trong không gian số liệu. –