Tôi đang cố gắng lấy một số văn bản từ tài liệu html bằng BeautifulSoup. Trong một trường hợp rất có liên quan với tôi, nó bắt nguồn từ một kết quả kỳ lạ và thú vị: sau một thời điểm nhất định, súp chứa đầy không gian phụ trong văn bản (một khoảng trống tách từng chữ cái với chữ cái sau). Tôi đã cố gắng tìm kiếm trên web để tìm lý do cho điều đó, nhưng tôi chỉ gặp một số tin tức về lỗi ngược lại (không có khoảng trống nào cả).BeautifulSoup trả lại các khoảng trống thừa bất ngờ
Bạn có một số gợi ý hoặc gợi ý về lý do tại sao điều đó xảy ra và cách giải quyết vấn đề này ?.
Đây là mã rất cơ bản mà tôi tạo ra:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
Và đây là một dòng lấy từ các kết quả, đường, nơi vấn đề này bắt đầu xuất hiện:
value = \" Không có vorremmo nuovi uccelli chiamati lontre \ "> < đầu vào onmouseover = \" Mẹo ('< cen terclass = \ \' title _ video \ \ '> <b> G iuseppelabbateo g m? n o n v o r r e m m o n u o v i u c c đ l l i c h i một m t i l o n t r e <
Tại sao bạn in 'ultrasoup'? Nó không phải là 'súp'? – svineet
Cùng một vấn đề ở đây với một trang web khác. Tôi vẫn đang cố gắng tìm hiểu xem đây có phải là vấn đề với BeautifulSoup hay lxml cơ bản không. Phần mềm chạy mà không có vấn đề gì trên một 32bit-Python và thất bại với 64bit. – Matthias
Tôi xin lỗi vì 'ultrasoup', chỉ là một lỗi nhỏ. Tất nhiên, mã đúng là 'in súp' –