Tôi đang lập kế hoạch viết một công cụ để phát hiện chủ đề trên Twitter. Tôi đã suy nghĩ về một biện pháp tương tự tốt (khoảng cách) giữa hai tweets, và làm thế nào để đại diện cho họ, lấy trong đếm:Đại diện và một biện pháp tương tự tốt giữa các Tweet để phát hiện chủ đề
- Các
#hashtags
(Tôi nghĩ hashtags là rất quan trọng khi phát hiện chủ đề trên Twitter) - các câu trả lời (nếu ai đó trả lời một tweet, những tweets thể được nói về cùng một chủ đề, mặc dù hai người có thể bắt đầu nói về samsung galaxy và kết thúc nói về iphone jailbreaking, v.v.)
Tôi đang suy nghĩ về việc triển khai những gì tôi có cho đến nay và thực hiện một số thử nghiệm. Tôi sẽ thực hiện các mô hình cổ điển (như TF*IDF
và sử dụng ơclit khoảng cách, góc cosin, vv), và các mô hình boolean với một vài biện pháp tương tự (Hamming, Jaccard, vv).
Bất kỳ ý tưởng nào về cách điều chỉnh một số mô hình hiện có thành Twitter hoặc một vài ý tưởng về cách tạo mô hình mới?
Cảm ơn bạn đã trả lời. Bây giờ tôi sẽ xem xét các bài viết đó :) –
Hi Pulkit, bạn có một bài báo mô tả công việc mà bạn đã làm về điều này mà tôi có thể đọc không? – KillBill