Mức python của tôi là Novice. Tôi chưa bao giờ viết trình thu thập dữ liệu web hoặc trình thu thập thông tin. Tôi đã viết một mã python để kết nối với một api và trích xuất dữ liệu mà tôi muốn. Nhưng đối với một số dữ liệu được trích xuất, tôi muốn có được giới tính của tác giả. Tôi tìm thấy trang web này http://bookblog.net/gender/genie.php
nhưng nhược điểm là không có một api có sẵn. Tôi đã tự hỏi làm thế nào để viết một con trăn để gửi dữ liệu đến các hình thức trong trang và trích xuất dữ liệu trả về. Nó sẽ là một trợ giúp lớn nếu tôi có thể nhận được một số hướng dẫn về điều này.Gửi dữ liệu qua biểu mẫu web và trích xuất kết quả
Đây là dạng dom:
<form action="analysis.php" method="POST">
<textarea cols="75" rows="13" name="text"></textarea>
<div class="copyright">(NOTE: The genie works best on texts of more than 500 words.)</div>
<p>
<b>Genre:</b>
<input type="radio" value="fiction" name="genre">
fiction
<input type="radio" value="nonfiction" name="genre">
nonfiction
<input type="radio" value="blog" name="genre">
blog entry
</p>
<p>
</form>
kết quả trang dom:
<p>
<b>The Gender Genie thinks the author of this passage is:</b>
male!
</p>
tôi đã cố gắng để làm easy_install lxml.html nhưng nhận được lỗi sau đây easy_install lxml.html Tìm kiếm lxml.html Đọc http://pypi.python.org/simple/lxml .html/ Không thể tìm thấy trang chỉ mục cho 'lxml.html' (có thể sai chính tả?) Chỉ mục quét của tất cả các gói (quá trình này có thể mất một lúc) Đọc http://pypi.python.org/simple/ Không gói địa phương hoặc liên kết tải xuống được tìm thấy cho lxml.html lỗi: Không thể tìm thấy phân phối phù hợp cho Yêu cầu.parse ('lxml.html') –
Trong nhập mô-đun, nếu hai tên có '.' giữa chúng, điều đó có nghĩa là tên thứ hai nằm trong tên trước đó. Mô-đun bạn muốn cài đặt là lxml. – Acorn
cảm ơn tôi đã nhận ra nó sau khi đưa ra nhận xét. Cảm ơn agianl –