2013-08-16 55 views
8

Thông tin sau không hoạt động. Tôi không biết tại sao nó chỉ dừng lại trong url bắt đầu, không đi vào các liên kết trong nó để tìm kiếm các loại tập tin nhất định.Tải xuống tất cả các tệp thuộc một loại cụ thể từ trang web bằng cách sử dụng wget

wget -r -A .pdf HOME_PAGE_URL

Bất kỳ cách nào khác để đệ quy tải về tất cả các file pdf trong một trang web. ?

+0

có thể trùng lặp của [Làm thế nào để tải xuống tất cả các liên kết đến tệp .zip trên một trang web cụ thể bằng cách sử dụng wget/curl?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Trả lời

1

Nó có thể dựa trên robots.txt. Thử thêm -e robots=off.

Các sự cố có thể xảy ra khác là xác thực dựa trên cookie hoặc từ chối đại lý cho wget. See these examples.

EDIT: Dấu chấm trong ".pdf" là sai theo sunsite.univie.ac.at

+0

Đã thử nhưng kết quả tương tự. Nó không phải là một trang web dựa trên cookie chắc chắn. Tôi có thể tải về bằng cách sử dụng python urllib mở đệ quy. Có thể là nhật ký sẽ giúp bạn. Về cơ bản nó tải xuống trang chủ nói rằng xóa vì nó sẽ bị từ chối. Sau đó, truy cập một trang không có liên kết và dừng ở đó. Điều gì về các liên kết khác trong niềm hy vọng? – SoulMan

+0

Đã cố gắng gì? Xóa dấu chấm? Bỏ qua robots.txt? Hoặc mô phỏng một trình duyệt? Hay tất cả chúng? – rimrul

+0

Đã thử xóa dấu chấm và bỏ qua rô bốt – SoulMan

1

sau công trình cmd đối với tôi, nó sẽ tải hình ảnh của một trang web

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/