Tôi đang cố gắng phân tích cú pháp tài liệu HTML bằng thư viện Python BeautifulSoup, nhưng cấu trúc bị méo bởi các thẻ <br>
. Để tôi cho bạn một ví dụ.Cấu trúc anh chị em Beautifulsoup với thẻ br
Input HTML:
<div>
some text <br>
<span> some more text </span> <br>
<span> and more text </span>
</div>
HTML BeautifulSoup giải thích:
<div>
some text
<br>
<span> some more text </span>
<br>
<span> and more text </span>
</br>
</br>
</div>
Trong nguồn, nhịp có thể được coi anh chị em. Sau khi phân tích cú pháp (sử dụng trình phân tích cú pháp mặc định), các nhịp đột nhiên không còn là anh chị em nữa, vì các thẻ br trở thành một phần của cấu trúc. Các giải pháp tôi có thể nghĩ đến để giải quyết điều này là để cắt các thẻ <br>
hoàn toàn, trước khi đổ html vào Beautifulsoup, nhưng điều đó không có vẻ rất thanh lịch, vì nó đòi hỏi tôi phải thay đổi đầu vào. Cách tốt hơn để giải quyết vấn đề này là gì?
Nên có hai thẻ div đó, bạn dường như có ' TerryA
Thậm chí ấn định khoảng, tôi đã tái tạo các lỗi sử dụng BS4. b3, tuy nhiên không có vấn đề gì. – dilbert
Thật vậy. Khoảng là một lỗi đánh máy trên SO, không phải trong mã thực tế của tôi. dilbert là chính xác. – Joost