Tôi đang cố gắng trích xuất nội dung của bảng trong tài liệu DOCX Word và cậu bé tôi mới sử dụng xml/xpath.Trích xuất bảng từ tài liệu Word DOCX trong python
from docx import *
document = opendocx('someFile.docx')
tableList = document.xpath('/w:tbl')
Lỗi kích hoạt "XPathEvalError: Undefined namespace prefix" này. Tôi chắc chắn nó chỉ là người đầu tiên mong đợi trong khi phát triển kịch bản. Rất tiếc, tôi không thể tìm thấy hướng dẫn cho python-docx.
Bạn có thể cung cấp ví dụ về trích xuất bảng không?
Nơi mà bạn đã nhận docx? Bạn có thể cung cấp một URL không? –
Bạn nên tìm một hướng dẫn xml python. Hàm opendocx trả về một tài liệu xml, theo nguồn tin. Phần còn lại của các hàm trong thư viện python-docx là các trình bao bọc xung quanh thư viện python lxml, tại http://lxml.de/ hoặc có vẻ như với tôi. –
@ Spencer Rathbun: Mã sau không gây lỗi, nhưng sản lượng lạ [] 'tableList = document.xpath ('// tbl')' 'print tableList' Đây có phải là một số tính năng DOCX mà tôi không hiểu không? – mgierdal