Tôi đã tìm kiếm một cách để tách mọi thứ ra khỏi tài liệu html chỉ để lại các thẻ html. Có ai biết về một phương pháp cho việc này không? Tôi có kinh nghiệm với nhiều mô-đun perl và đã tìm kiếm kỹ lưỡng trang này.Tước mọi thứ trừ các thẻ html bằng cách sử dụng perl
Tôi muốn chuyển html dưới dạng chuỗi thành tập lệnh perl của mình và xóa mọi thứ ngoại trừ các thẻ. Dưới đây là một ví dụ:
Incoming:
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
<style type="text/css">
body {
background-color: #f0f0f2;
margin: 0;
padding: 0;
font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
}
div {
width: 600px;
margin: 5em auto;
padding: 50px;
background-color: #fff;
border-radius: 1em;
}
a:link, a:visited {
color: #38488f;
text-decoration: none;
}
@media (max-width: 700px) {
body {
background-color: #fff;
}
div {
width: auto;
margin: 0 auto;
border-radius: 0;
padding: 1em;
}
}
</style>
</head>
<body>
<div>
website content ....
</div>
</body>
</html>
trở thành:
<html><head><title></title><meta><meta><meta><style></style></head><body><div><h1></h1> <p></p><p><a></a></p></div></body></html>
Trở thành cái gì? Tôi ghét nó khi mọi người ... – hjpotter92
Cố định, lần đầu tiên xử lý công cụ mã trên trang này. ;) – user2421267
Bạn cũng muốn xóa các thuộc tính thẻ? Nếu vậy, bạn sẽ có thể thực hiện reg cũ như/?\w+? ?>/ – Robbert