Tôi đang sử dụng thư viện feedparser trong python để truy xuất tin tức từ một tờ báo địa phương (ý định của tôi là thực hiện xử lý ngôn ngữ tự nhiên trong kho này) và muốn có thể truy xuất nhiều quá khứ các mục từ nguồn cấp dữ liệu RSS.Feedparser - truy xuất thư cũ từ Google Reader
Tôi không quen với các vấn đề kỹ thuật của RSS, nhưng tôi nghĩ điều này có thể xảy ra (tôi có thể thấy rằng, Google Reader và Feedly có thể thực hiện điều này '' theo yêu cầu '' khi tôi di chuyển thanh cuộn).
Khi tôi làm như sau:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
tôi nhận được chỉ có vài chục mục hoặc lâu hơn. Tôi đã suy nghĩ về hàng trăm. Có thể tất cả các mục trong tháng trước, nếu có thể. Có thể làm điều này chỉ với feedparser?
Tôi dự định nhận từ nguồn cấp dữ liệu rss chỉ liên kết đến mục tin tức và phân tích trang đầy đủ với BeautifulSoup để nhận văn bản tôi muốn. Một giải pháp thay thế sẽ là một trình thu thập thông tin theo sau tất cả các liên kết cục bộ trong trang để nhận được nhiều mục tin tức, nhưng tôi muốn tránh điều đó ngay bây giờ.
-
Một giải pháp mà xuất hiện là sử dụng bộ nhớ cache Google Reader RSS:
Nhưng để truy cập này, tôi phải đăng nhập vào Google Reader. Bất cứ ai cũng biết làm thế nào tôi làm điều đó từ python? (Tôi thực sự không biết gì về web, tôi thường chỉ lộn xộn với tính toán số).
Cảm ơn một lần nữa Bartek. Tôi nghĩ bây giờ tôi đã hiểu rõ hơn. Vậy RSS đơn giản là một tệp xml được lưu trữ trong máy chủ? Tôi đã có hình ảnh sai về nó ... nghĩ rằng đó là một loại '' giao thức '' để có được một nguồn cấp dữ liệu văn bản. Cảm ơn bạn lần nữa. –