Tôi nghĩ rằng tận dụng một thuật toán âm chuẩn sẽ là một ý tưởng tốt. Tôi nghĩ Soundex có thể hơi bị giới hạn, nhưng một số double metaphone có lẽ sẽ là một lựa chọn tốt.
Nhận các đại diện metaphone của các từ được đề cập, xóa các ký tự đầu tiên và kiểm tra xem phần còn lại của hai từ này có khớp với thời gian dài hơn hay không. Với metaphone kép, nó rất giống nhau, nhưng thực hiện bốn so sánh, tiểu học đến tiểu học, trung học đến tiểu học, tiểu học đến trung học và trung học đến trung học.
Tôi nghĩ đó sẽ là điểm khởi đầu tốt.
Lưu ý về điều này và nhiều thuật toán ngữ âm khác: Nó không được thiết kế để cung cấp định nghĩa ngữ âm chính xác. Phát âm địa lý đa dạng, phát âm sai phổ biến và phát âm thay thế khiến cho phát âm chính xác một cách nhanh chóng và khó có thể đạt được chỉ dựa trên từ. Tiểu thuyết chính tả và cách sử dụng thư làm cho khó có thuật toán có được cách phát âm gần (chăm sóc cho một số món khai vị?). Ngoài ra, mục tiêu chính của nhiều thuật toán như vậy là trùng khớp các từ hoặc tên tương tự với nhau hoặc âm thanh, vì vậy kết quả thường có ý nghĩa không chính xác (điều này có thể là một điều tốt cho mục đích này).
Chúc may mắn, vô cùng khó khăn? – EricG
định nghĩa của vần điệu là gì? –
@AlexLynch http://en.wikipedia.org/wiki/Rhyme, tôi không biết ngôn ngữ của bạn có định nghĩa chúng hay không nhưng bản địa của tôi (tiếng Ba Lan) chúng tôi cũng phân loại các vần điệu. ;-) –