Tôi mới sử dụng XPath. Tôi đang cố gắng phân tích cú pháp một trang bằng XPath. Tôi cần lấy thông tin từ thẻ, nhưng thoát khỏi dấu nháy đơn trong tiêu đề vít lên tất cả mọi thứ.Thẻ phân tích cú pháp XPath bằng dấu nháy đơn
Để phân tích cú pháp, tôi sử dụng Grab.
thẻ từ nguồn:
<img src='somelink' border='0' alt='commission:Alfred\'s misadventures' title='commission:Alfred\'s misadventures'>
XPath Thực tế:
g.xpath('.//tr/td/a[3]/img').get('title')
Returns
commission:Alfred\\
Có cách nào để sửa lỗi này?
Cảm ơn
Thành thật mà nói, bạn nên vui mừng vì '.xpath' trả về bất kỳ thứ gì. HTML này không hợp lệ cho mô-đun 'html' của LXML để choke trên đó. –
Tôi đã thực hiện một số thử nghiệm với lxml và BeautifulSoup và cả hai đều không phân tích cú pháp chính xác. Rõ ràng, các dấu ngoặc kép bên ngoài cho các giá trị thuộc tính phải là dấu ngoặc kép. Nguồn html là gì? – ekhumoro