hey tất cả, chỉ bắt đầu trên Hadoop và tò mò những cách tốt nhất trong MapReduce sẽ được đếm người truy cập nếu log của bạn trông như thế này ...Cách tốt nhất để đếm số lượng khách truy cập với Hadoop là gì?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
và cho mỗi trang web mà bạn muốn tìm hiểu khách truy cập duy nhất cho mỗi trang web?
Tôi đã nghĩ người lập bản đồ sẽ phát ra tên người dùng siteID \ t và trình giảm sẽ giữ một tập hợp() của tên người dùng duy nhất cho mỗi khóa và sau đó phát ra độ dài của tập hợp đó. Tuy nhiên đó sẽ là khả năng lưu trữ hàng triệu tên người dùng trong bộ nhớ mà dường như không đúng. Bất cứ ai có một cách tốt hơn?
Tôi đang sử dụng python trực tuyến bằng cách này
nhờ