Tôi đang cố gắng xây dựng một hệ thống giới thiệu để giới thiệu các trang web cho người dùng dựa trên hành động của anh ấy (tìm kiếm google, nhấp chuột, anh ấy cũng có thể xếp hạng trang web một cách rõ ràng). Để có ý tưởng về cách tin tức của Google thực hiện, nó hiển thị các bài viết tin tức từ trang web về một chủ đề cụ thể. Về mặt kỹ thuật, đó là phân cụm, nhưng mục tiêu của tôi là tương tự. Nó sẽ là đề xuất dựa trên nội dung dựa trên hành động của người dùng.Hệ thống giới thiệu trang web
Vì vậy, câu hỏi của tôi là:
- Làm thế nào tôi có thể có thể ghé qua những internet để tìm liên quan web trang?
- Và thuật toán nào tôi nên sử dụng để trích xuất dữ liệu từ trang web là phân tích văn bản và tần suất từ là cách duy nhất để làm điều đó?
- Cuối cùng nền tảng nào phù hợp nhất cho vấn đề này. Tôi đã nghe nói về mahout Apache và nó đi kèm với một số thuật toán có thể sử dụng lại, nó có âm thanh phù hợp không?
Bạn có thể viết nhiều cuốn sách về câu hỏi của bạn. –
haha, chúng có phải là vấn đề lớn không? Vâng, tôi đang tìm một giải pháp đơn giản. Chỉ là một mô tả ngắn gọn về cách tiếp cận một dự án như vậy. –
[Lập trình tập thể dục thông minh] (http://shop.oreilly.com/product/9780596529321.do) là một cách dễ dàng, toán học ít giới thiệu về máy học và chứa một trường hợp sử dụng như câu hỏi của bạn. – Maurits