2013-04-17 27 views
6

Tôi tình cờ gặp thư viện python wikidump, mà tôi cho là phù hợp với tôi.Tìm kiếm ví dụ hoặc tài liệu cho lib python wikidump

Tôi có thể lấy bằng cách xem mã nguồn, nhưng tôi mới ở python và tôi không muốn viết mã BS vì dự án tôi cần nó là quan trọng đối với tôi.

Tôi nhận tệp 'wiki-SPECIFICDATE-pages-articles.xml.bz2' và tôi sẽ cần sử dụng đó làm nguồn của mình để tìm nạp bài viết đơn lẻ. Bất cứ ai có thể cho tôi một số gợi ý là để đạt được điều này đúng hay thậm chí tốt hơn, chỉ vào một số tài liệu? Tôi không thể tìm thấy bất kỳ!

(ps nếu bạn có bất kỳ lib tốt hơn và doc'd đúng, xin vui lòng cho tôi biết)

+1

Bạn đã xem khách hàng dòng lệnh của họ tại https://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.py có thể được sử dụng làm ví dụ? – MaxSem

+1

Tôi sử dụng http://medialab.di.unipi.it/wiki/Wikipedia_Extractor để chuyển đổi Wikipedia thành văn bản thuần túy. Nó có thể được sửa đổi dễ dàng để lấy bất kỳ bài viết nào. Chỉ cần gỡ lỗi quá trình xử lý của một bài viết và bạn sẽ thấy vị trí chèn một đối sánh regex để tìm nạp. – Den

Trả lời

0

Không chắc nếu tôi hiểu câu hỏi, nhưng nếu bạn có Wikipedia đổ và bạn cần phải phân tích các mã wiki, tôi sẽ đề xuất mwparserfromhell lib.

Một khuôn khổ mạnh mẽ là Pywikibot, đó là khuôn khổ lịch sử đối với người sử dụng bot trên Wikipedia (do đó, nó có nhiều kịch bản dành riêng cho viết trang, thay vì đọc và bài phân tích). Nó có rất nhiều tài liệu (mặc dù, đôi khi lỗi thời) và nó sử dụng API của MediaWiki.

Bạn có thể sử dụng cả hai, tất nhiên: PWB để tìm nạp bài viết và mwparserfromhell để phân tích cú pháp.