Sự cố này phân tích thành một vài vấn đề phụ từ quan điểm học máy.
Trước tiên, bạn sẽ muốn tìm ra những thuộc tính của những câu chuyện tin tức bạn muốn nhóm dựa trên. Một kỹ thuật phổ biến là sử dụng 'word bags': chỉ một danh sách các từ xuất hiện trong phần nội dung của câu chuyện hoặc trong tiêu đề. Bạn có thể thực hiện một số xử lý bổ sung như xóa tiếng Anh thông dụng "stop words" không cung cấp ý nghĩa, chẳng hạn như "the", "bởi vì". Bạn thậm chí có thể làm porter stemming để xóa các dư thừa với các từ số nhiều và các từ kết thúc như "-ion". Danh sách các từ này là vectơ tính năng của mỗi tài liệu và sẽ được sử dụng để đo lường sự giống nhau. Bạn có thể phải thực hiện một số tiền xử lý để loại bỏ đánh dấu html.
Thứ hai, bạn phải xác định số liệu tương tự: các câu chuyện tương tự có điểm tương đồng cao. Cùng với cách tiếp cận từ ngữ, hai câu chuyện tương tự nếu họ có những từ tương tự trong chúng (tôi đang mơ hồ ở đây, bởi vì có rất nhiều thứ bạn có thể thử, và bạn sẽ phải xem cái nào hoạt động tốt nhất).
Cuối cùng, bạn có thể sử dụng thuật toán phân cụm cổ điển, chẳng hạn như k-means clustering, nhóm các câu chuyện lại với nhau, dựa trên số liệu tương tự.
Tóm lại: chuyển câu chuyện tin tức thành vectơ nổi bật -> xác định chỉ số tương tự dựa trên vectơ tính năng này -> nhóm không giám sát.
Kiểm tra Google scholar, có thể có một số giấy tờ về chủ đề cụ thể này trong các tài liệu gần đây. Rất nhiều thứ mà tôi vừa thảo luận được thực hiện trong các mô-đun xử lý ngôn ngữ tự nhiên và học máy cho hầu hết các ngôn ngữ chính.
Nguồn
2010-07-23 17:38:40
Câu trả lời hay! Điều này thật đúng với gì mà tôi đã tìm kiếm. Nhanh chóng theo dõi câu hỏi. Nếu tôi đang tìm kiếm một nhà phát triển với các bộ kỹ năng này, tôi nên yêu cầu loại điều gì? Tôi thậm chí không biết lĩnh vực nghiên cứu này được gọi là gì. – Randy
Hãy tìm một sinh viên khoa học máy tính đã hoặc đang học một lớp với hoặc đã có kinh nghiệm về 'xử lý ngôn ngữ tự nhiên' hoặc 'học máy'. Câu hỏi của bạn rất đơn giản để trả lời trong ngữ cảnh học máy, vì vậy hãy hỏi họ cách họ sẽ thực hiện một cái gì đó nhóm các câu chuyện tin tức. Ngoài ra, các dự án như thế này không phải lúc nào cũng hiệu quả vì có rất nhiều thứ có thể vắt trong ML và NLP - nhưng khi nó hoạt động, nó khá là tuyệt vời. –