Tôi có một dự án mà tôi thu thập tất cả các bài viết Wikipedia thuộc về một thể loại cụ thể, kéo ra khỏi bãi chứa từ Wikipedia, và đặt nó vào db của chúng tôi.Có một trình phân tích cú pháp/cách nào có sẵn để phân tích cú pháp các tệp kết xuất Wikipedia bằng cách sử dụng Python không?
Vì vậy, tôi nên phân tích cú pháp tệp kết xuất Wikipedia để hoàn thành công việc. Chúng ta có một trình phân tích cú pháp hiệu quả để thực hiện công việc này không? Tôi là một nhà phát triển python. Vì vậy, tôi thích bất kỳ trình phân tích cú pháp nào trong python. Nếu không đề nghị một và tôi sẽ cố gắng để viết một cổng của nó trong python và đóng góp nó vào web, do đó, những người khác sử dụng nó hoặc ít nhất là thử nó.
Vì vậy, tất cả những gì tôi muốn là trình phân tích cú pháp python để phân tích các tệp kết xuất Wikipedia. Tôi bắt đầu viết một trình phân tích cú pháp thủ công để phân tích từng nút và hoàn thành công việc.