Tôi đang lập kế hoạch để viết một webcrawler cho một dự án NLP, mà đọc trong cấu trúc thread của một diễn đàn mọi lúc trong một khoảng thời gian cụ thể và phân tích từng luồng với nội dung mới. Thông qua các biểu thức chính quy, tác giả, ngày tháng và nội dung của các bài viết mới được trích xuất. Kết quả sau đó được lưu trữ trong cơ sở dữ liệu.Erlang có phải là lựa chọn đúng đắn cho một webcrawler không?
Ngôn ngữ và plattform sử dụng cho việc thu thập thông phải phù hợp với các tiêu chí sau:
- dễ dàng mở rộng trên nhiều lõi và cpu
- thích hợp cho tôi cao/O tải
- nhanh biểu thức chính quy phù hợp với
- dễ dàng duy trì/vài chi phí hoạt động
Sau một số nghiên cứu tôi nghĩ rằng Erlan g có thể là một ứng cử viên phù hợp, nhưng tôi đọc nó không phải là rất tốt ở chế biến chuỗi (và vì vậy biểu thức phù hợp thường xuyên). Tôi cũng không có bất kỳ sự hết hạn nào về yếu tố bảo trì.
Erlang có phải là công nghệ tốt cho kịch bản được mô tả ở trên không? Và nếu không, điều gì sẽ là một lựa chọn tốt?
Điều này có thể được yêu cầu tốt hơn trên http: //programmers.stackexchange.com; nó rơi dưới "không xây dựng" ở đây IMHO –
Tiêu chí của bạn có ít nhất là nhiều để làm với thiết kế tổng thể và kiến trúc như ngôn ngữ. Bạn có thể xây dựng webcrawlers có thể mở rộng trong Erlang, Python, Java, bất cứ điều gì. Nó cũng phụ thuộc vào kinh nghiệm ngôn ngữ lập trình hiện tại và thời gian của bạn. – DNA
Tôi thực sự muốn sử dụng Erlang cho dự án này bởi vì nó có thể là phù hợp nhất từ những gì tôi đọc cho đến nay. Câu hỏi của tôi là, nếu kết hợp regex xấu làm cho nó không phải là đi cho dự án này và chi phí hoạt động cao (đặc biệt là để bảo trì) sẽ được thực hiện điều này trong thực tế. – Thomas