Tải xuống tất cả các tệp thuộc một loại cụ thể từ trang web bằng cách sử dụng wget

Thông tin sau không hoạt động. Tôi không biết tại sao nó chỉ dừng lại trong url bắt đầu, không đi vào các liên kết trong nó để tìm kiếm các loại tập tin nhất định.Tải xuống tất cả các tệp thuộc một loại cụ thể từ trang web bằng cách sử dụng wget

wget -r -A .pdf HOME_PAGE_URL

Bất kỳ cách nào khác để đệ quy tải về tất cả các file pdf trong một trang web. ?

Nguồn

2013-08-16 SoulMan

có thể trùng lặp của [Làm thế nào để tải xuống tất cả các liên kết đến tệp .zip trên một trang web cụ thể bằng cách sử dụng wget/curl?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Nó có thể dựa trên robots.txt. Thử thêm -e robots=off.

Các sự cố có thể xảy ra khác là xác thực dựa trên cookie hoặc từ chối đại lý cho wget. See these examples.

EDIT: Dấu chấm trong ".pdf" là sai theo sunsite.univie.ac.at

Nguồn

2013-08-16 13:39:05 rimrul

Đã thử nhưng kết quả tương tự. Nó không phải là một trang web dựa trên cookie chắc chắn. Tôi có thể tải về bằng cách sử dụng python urllib mở đệ quy. Có thể là nhật ký sẽ giúp bạn. Về cơ bản nó tải xuống trang chủ nói rằng xóa vì nó sẽ bị từ chối. Sau đó, truy cập một trang không có liên kết và dừng ở đó. Điều gì về các liên kết khác trong niềm hy vọng? – SoulMan

Đã cố gắng gì? Xóa dấu chấm? Bỏ qua robots.txt? Hoặc mô phỏng một trình duyệt? Hay tất cả chúng? – rimrul

Đã thử xóa dấu chấm và bỏ qua rô bốt – SoulMan

sau công trình cmd đối với tôi, nó sẽ tải hình ảnh của một trang web

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

Nguồn

2015-06-03 06:27:18 telehan

Tải xuống tất cả các tệp thuộc một loại cụ thể từ trang web bằng cách sử dụng wget

Trả lời

Các vấn đề liên quan