Tôi đang có hiệu quả cố gắng để giải quyết vấn đề tương tự như câu hỏi này:Tìm kiếm một cơ sở dữ liệu của n-gram lấy từ wikipedia
Finding related words (specifically physical objects) to a specific word
trừ yêu cầu rằng lời nói đại diện cho đối tượng vật lý. Câu trả lời và câu hỏi được chỉnh sửa dường như chỉ ra rằng một khởi đầu tốt là xây dựng một danh sách tần số của n-gram bằng cách sử dụng văn bản wikipedia như một kho văn bản. Trước khi tôi bắt đầu tải xuống bãi chứa khổng lồ wikipedia, có ai biết nếu danh sách như vậy đã tồn tại không?
PS nếu các poster ban đầu của câu hỏi trước xem đây, tôi rất thích biết làm thế nào bạn đi về việc giải quyết các vấn đề, như kết quả của bạn có vẻ :-) tuyệt vời
Có, tôi đã xem xét tập dữ liệu đó - thậm chí còn đáng sợ hơn các bãi wikipedia! – mojones
Nó không có sẵn để sử dụng thương mại – Joel
Có ai tìm thấy một torrent của nó? – placeybordeaux