Sử dụng mô-đun Súp tuyệt đẹp, làm cách nào để lấy dữ liệu của thẻ div
có tên lớp là feeditemcontent cxfeeditemcontent
? Là nó:Lấy tên và nội dung của lớp bằng cách sử dụng Beautiful Soup
soup.class['feeditemcontent cxfeeditemcontent']
hay:
soup.find_all('class')
Đây là nguồn HTML:
<div class="feeditemcontent cxfeeditemcontent">
<div class="feeditembodyandfooter">
<div class="feeditembody">
<span>The actual data is some where here</span>
</div>
</div>
</div>
và đây là mã Python:
from BeautifulSoup import BeautifulSoup
html_doc = open('home.jsp.html', 'r')
soup = BeautifulSoup(html_doc)
class="feeditemcontent cxfeeditemcontent"
'classes = dict (tag.attrs) .get ('class', '')' ngắn hơn nhiều so với 'try'' except' block và chức năng của nó giống nhau. –
@DoronCohen là 'dict()' cần thiết? Dường như làm việc mà không có. – Mark
@Mark Tôi nhận được một ngoại lệ mà không có 'dict()' bởi vì nó là một danh sách 'TypeError: chỉ mục danh sách phải là số nguyên, không phải str'. Ngoài ra, câu trả lời này giả định Beautiful Soup 3 (có thể là lý do tại sao bạn nhìn thấy kết quả khác nhau), có lẽ bạn nên sử dụng phiên bản 4 và sử dụng câu trả lời khác. – jadkik94