5

cách các cửa hàng tin tức như tin tức của Google tự động phân loại và xếp hạng tài liệu về các chủ đề mới nổi, như "ngân sách năm 2011 của obama"?phân loại một cách mù quáng các xu hướng mới trong dữ liệu đến

Tôi đã có một đống bài viết được gắn thẻ dữ liệu bóng chày như tên người chơi và mức độ liên quan đến bài viết (cảm ơn, opencalais) và muốn tạo giao diện theo phong cách tin tức trên google xếp hạng và hiển thị bài đăng mới khi họ đến trong, đặc biệt là các chủ đề mới nổi. tôi cho rằng một phân loại bay ngây thơ có thể được đào tạo với một số danh mục tĩnh, nhưng điều này không thực sự cho phép theo dõi xu hướng như "người chơi này vừa được giao dịch cho đội này, những người chơi khác cũng tham gia."

+0

Tại sao thẻ Python? – mjv

+0

Rất tiếc, lỗi của tôi. nó biến mất rồi. cám ơn. – Carson

+0

Bạn có nghĩa là làm thế nào nó có thể khái quát hóa cho các chủ đề không nhìn thấy? – bayer

Trả lời

4

Không nghi ngờ gì, Google News có thể sử dụng thủ thuật khác (hoặc thậm chí là một sự kết hợp của chúng), nhưng một trong những trick tương đối rẻ, tính toán, để suy ra các chủ đề từ văn bản miễn phí sẽ khai thác khái niệm NLP rằng một từ được ý nghĩa của nó chỉ khi được kết nối với các từ khác.
Một thuật toán dễ bị phát hiện danh mục chủ đề mới từ nhiều tài liệu có thể được trình bày như sau:

  • POS (phần-of-speech) tag văn bản
    Có lẽ chúng ta muốn tập trung hơn vào các danh từ và thậm chí có thể hơn vân vân thực thể có tên (như Obama hoặc New England)
  • Đồng hóa văn bản
    Đặc biệt thay thế các từ inflected bởi gốc chung của họ. Thậm chí có thể thay thế một số tính từ bằng Thực thể được đặt tên tương ứng (ví dụ: Paris ==> Paris, pháp lý ==> luật)
    Ngoài ra, hãy xóa các từ tiếng ồn và biểu thức tiếng ồn.
  • xác định một số lời từ một danh sách các tay duy trì "từ/định kỳ nóng hiện nay" (Superbowl, cuộc bầu cử, scandal ...)
    này có thể được sử dụng trong các bước tiếp theo để cung cấp trọng lượng hơn đối với một số N-gram
  • Liệt kê tất cả N-grams được tìm thấy trong mỗi tài liệu (trong đó N là 1 để nói 4 hoặc 5)
    Hãy chắc chắn đếm, riêng biệt, số lần xuất hiện của mỗi N-gram trong một tài liệu nhất định và số lượng tài liệu trích dẫn cho N-gram
  • N-grams thường được trích dẫn nhiều nhất (ví dụ: những thứ được trích dẫn trong hầu hết các tài liệu) có lẽ là Chủ đề.
  • Xác định các chủ đề hiện có (từ một danh sách các chủ đề nổi tiếng)
  • [tùy chọn] Manually xét các chủ đề mới

công thức chung này cũng có thể được thay đổi để tận dụng các thuộc tính khác của các tài liệu và văn bản trong đó . Ví dụ: nguồn gốc tài liệu (nói cnn/thể thao so với cnn/chính trị ...) có thể được sử dụng để chọn từ vựng cụ thể của tên miền. Một ví dụ khác là quy trình có thể nhấn mạnh nhiều hơn hoặc ít hơn các từ/biểu thức từ tiêu đề tài liệu (hoặc các khu vực khác của văn bản với một đánh dấu cụ thể).