Tôi tình cờ gặp thư viện python wikidump, mà tôi cho là phù hợp với tôi.Tìm kiếm ví dụ hoặc tài liệu cho lib python wikidump
Tôi có thể lấy bằng cách xem mã nguồn, nhưng tôi mới ở python và tôi không muốn viết mã BS vì dự án tôi cần nó là quan trọng đối với tôi.
Tôi nhận tệp 'wiki-SPECIFICDATE-pages-articles.xml.bz2' và tôi sẽ cần sử dụng đó làm nguồn của mình để tìm nạp bài viết đơn lẻ. Bất cứ ai có thể cho tôi một số gợi ý là để đạt được điều này đúng hay thậm chí tốt hơn, chỉ vào một số tài liệu? Tôi không thể tìm thấy bất kỳ!
(ps nếu bạn có bất kỳ lib tốt hơn và doc'd đúng, xin vui lòng cho tôi biết)
Bạn đã xem khách hàng dòng lệnh của họ tại https://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.py có thể được sử dụng làm ví dụ? – MaxSem
Tôi sử dụng http://medialab.di.unipi.it/wiki/Wikipedia_Extractor để chuyển đổi Wikipedia thành văn bản thuần túy. Nó có thể được sửa đổi dễ dàng để lấy bất kỳ bài viết nào. Chỉ cần gỡ lỗi quá trình xử lý của một bài viết và bạn sẽ thấy vị trí chèn một đối sánh regex để tìm nạp. – Den