Tôi đang cố gắng để trích xuất dữ liệu Ratings Anh Thực phẩm Cơ quan aspx Kết các trang kết quả sử dụng mechanize/Python trên scraperwiki (http://scraperwiki.com/scrapers/food_standards_agency/) nhưng đến với một (e, g http://ratings.food.gov.uk/QuickSearch.aspx?q=po30.) vấn đề khi cố gắng làm theo "bên cạnh" liên kết trang có dạng:Screenscaping aspx với Python mechanize - Hình thức nộp hồ sơ Javascript
<input type="submit" name="ctl00$ContentPlaceHolder1$uxResults$uxNext" value="Next >" id="ctl00_ContentPlaceHolder1_uxResults_uxNext" title="Next >" />
việc xử lý hình thức trông giống như:
<form method="post" action="QuickSearch.aspx?q=po30" onsubmit="javascript:return WebForm_OnSubmit();" onkeypress="javascript:return WebForm_FireDefaultButton(event, 'ctl00_ContentPlaceHolder1_buttonSearch')" id="aspnetForm">
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
Một dấu vết HTTP khi tôi tự bấm vào liên kết tiếp theo cho thấy __E VENTTARGET trống? Tất cả các nôi tôi có thể tìm thấy trên các scrapers khác cho thấy thao tác của __EVENTTARGET như là cách xử lý các trang tiếp theo.
Thật vậy, tôi không chắc chắn trang tôi muốn xóa bao giờ tải trang tiếp theo? Bất cứ điều gì tôi ném vào scraper, nó chỉ bao giờ quản lý để tải trang kết quả đầu tiên. (Ngay cả khi có thể thay đổi số lượng kết quả trên mỗi trang sẽ hữu ích, nhưng tôi không thể thấy cách thực hiện điều đó!)
Vì vậy - mọi ý tưởng về cách xóa các trang kết quả 1 + N'th N> 0?