Tôi đang sử dụng dưới đây để có được tất cả các nội dung html của một phần để lưu vào cơ sở dữ liệuPython, lxml và loại bỏ các thẻ bên ngoài từ việc sử dụng lxml.html.tostring (el)
el = doc.get_element_by_id('productDescription')
lxml.html.tostring(el)
Mô tả sản phẩm có một thẻ trông như thế này:
<div id='productDescription'>
<THE HTML CODE I WANT>
</div>
mã này hoạt động tuyệt vời, mang lại cho tôi tất cả các mã html nhưng làm thế nào để loại bỏ các lớp bên ngoài tức là <div id='productDescription'>
và thẻ đóng </div>
?
'basestring' là gì? – nHaskins