Tôi đang sử dụng đoạn mã sau để lưu trang web bằng Python:Làm thế nào để tiết kiệm "hoàn thành trang web" không chỉ là html cơ bản sử dụng Python
import urllib
import sys
from bs4 import BeautifulSoup
url = 'http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'
f = urllib.urlretrieve(url,'test.html')
Vấn đề: Mã này tiết kiệm html như html cơ bản mà không javascripts, hình ảnh vv . tôi muốn lưu trang web dưới dạng đầy đủ (Giống như chúng ta có tùy chọn trong trình duyệt)
cập nhật: tôi đang sử dụng đoạn mã sau tại để lưu tất cả các js/images/file css của webapge để nó có thể được lưu lại dưới dạng trang web hoàn chỉnh nhưng vẫn là html đầu ra của tôi được lưu như html cơ bản:
import pycurl
import StringIO
c = pycurl.Curl()
c.setopt(pycurl.URL, "http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html")
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
c.setopt(pycurl.MAXREDIRS, 5)
c.perform()
html = b.getvalue()
#print html
fh = open("file.html", "w")
fh.write(html)
fh.close()
Sau đó, bạn sẽ phải viết mã để phân tích cú pháp HTML, lấy tất cả các tài nguyên được liên kết và tải chúng riêng lẻ, giống như trình duyệt. – Amber
sử dụng súp đẹp tôi có thể làm điều đó? –
Hãy thử [Scrapy] (http://scrapy.org/), một khung công tác xóa web di động Python nguồn mở – Abhijit