Tôi có N từ khóa khác nhau mà tôi đang theo dõi (vì mục đích đơn giản, hãy N = 3). Vì vậy, trong trạng thái/bộ lọc GET, tôi sẽ cung cấp cho 3 từ khóa trong đối số "theo dõi".lọc các tweet nhận được từ trạng thái/bộ lọc (API trực tuyến)
Bây giờ, các tweet mà tôi sẽ nhận được có thể là BẤT K of từ khóa nào trong số 3 từ khóa mà tôi đã đề cập. Vấn đề là tôi muốn giải quyết xem tweet nào tương ứng với từ khóa nào. tức là ánh xạ giữa các tweet và (các) từ khóa (được đề cập trong đối số "theo dõi").
Rõ ràng, không có cách nào để thực hiện việc này mà không thực hiện bất kỳ quá trình xử lý nào trên các tweet nhận được.
Vì vậy, tôi đã tự hỏi cách tốt nhất để thực hiện việc xử lý này là gì? Tìm kiếm các từ khóa trong văn bản của tweet? Điều gì về phân biệt chữ hoa chữ thường? Điều gì xảy ra khi nhiều từ trong cùng một từ khóa, ví dụ: "Katrina Kaif"?
Tôi hiện đang cố gắng để xây dựng một số biểu hiện thường xuyên ...
Tôi đã suy nghĩ cách tốt nhất là sử dụng cùng một logic (biểu thức thông thường vv) như được sử dụng ban đầu được trạng thái/lọc API. Làm cách nào để biết trạng thái API được sử dụng bởi trạng thái API Twitter/lọc chính nó để so khớp các tweet với từ khóa?
Lời khuyên? Cứu giúp?
PS: Tôi đang sử dụng Python, Tweepy, Regex, MongoDB/Apache S4 (đối với tính toán phân tán)
Đối với biểu thức chính quy lớn hơn N có thể khá đau. Cách đơn giản nhất sẽ là biến văn bản thành chữ thường và cho mỗi tweet kiểm tra từ khóa cho sự tồn tại của nó. Nếu bạn muốn kiểm tra đối sánh chính xác thì bạn có thể mã hóa các tweet của mình và nhận được giao điểm của tập hợp từ khóa và bộ mã thông báo. Giao lộ sẽ là các từ khóa phù hợp với tweet. – cubbuk
@cubbuk: Hiện tại, tôi có N = 100. Tốt hơn là chỉ tìm kiếm từ khóa trong phần "văn bản" của tweet, đúng không? – user1599964
Đúng như tôi biết, twitter khớp với phần văn bản của tweet, vì vậy việc kiểm tra phần văn bản sẽ phù hợp hơn với bạn. – cubbuk