Tôi muốn đọc văn bản trang web không có thẻ html và tiêu đề. tôi chỉ cần văn bản được hiển thị trong trình duyệt web.Cách đọc nội dung trang web trong C#?
tôi không cần như thế này
<html>
<body>
bla bla </td><td>
bla bla
<body>
<html>
tôi chỉ cần văn bản "bla bla bla bla".
Tôi đã sử dụng các phương pháp webclient và httpwebrequest để lấy nội dung HTML và tách dữ liệu nhận được nhưng không thể vì nếu tôi thay đổi trang web, các thẻ có thể thay đổi.
Vì vậy, có cách nào để chỉ hiển thị văn bản được hiển thị trên trang web một cách sai lệch không?
Tôi nghĩ bạn sẽ cần một trình phân tích HTML và nếu bạn có quyền kiểm soát nguồn trang, để thêm id vào phần tử bạn muốn nhận, do đó, để lấy nó bằng một phương thức như getElementById của trình phân tích cú pháp. – alfoks
@alfoks :: bạn có bất kỳ liên kết ví dụ nào cho trình phân tích cú pháp HTML không? –