Tôi muốn được trợ giúp để hiểu thuật toán. Tôi đã dán giải thích thuật toán đầu tiên và sau đó nghi ngờ của tôi.Hiểu thuật toán Mapreduce để tính toán chồng chéo
Thuật toán :(Để tính toán sự chồng chéo giữa các cặp lục)
Với một người sử dụng tham số định nghĩa K, file DR (* Format: RECORD_ID, dữ liệu *) được chia thành K khối gần equi kích thước, sao cho dữ liệu của một tài liệu, Di rơi vào đoạn thứ i/K.
Chúng tôi đã bỏ qua chức năng phân vùng của Hadoop, ánh xạ khóa được phát ra bởi trình ánh xạ tới một thể hiện giảm tốc. Mỗi khóa (i, j) được ánh xạ tới bộ giảm tốc trong nhóm j/Kth.
Khoá đặc biệt i, * và giá trị liên quan của nó, nghĩa là dữ liệu của tài liệu được sao chép tối đa K lần, sao cho toàn bộ nội dung của tài liệu có thể được phân phối ở mọi bộ giảm tốc. Mỗi bộ giảm tốc trong một nhóm do đó cần khôi phục và tải trong bộ nhớ chỉ một đoạn tệp DR, có kích thước có thể được đặt tùy ý nhỏ bằng cách thay đổi K. Do đó chồng chéo có thể được tính toán. Điều này đạt được với chi phí nhân rộng các tài liệu được cung cấp thông qua khung công tác MapReduce.
nghi ngờ:
Tôi đã thực hiện một số giả định:
Bản Tuyên Bố: Mỗi chìa khóa (i, j) được ánh xạ tới một giảm trong j/thứ K nhóm. Giả định: K giảm các nút có mặt, và khóa được ánh xạ tới nút j/Kth giảm.
Nghi ngờ: Có phải một số nút giảm được nhóm lại với nhau không? có 0,1,2 nút được nhóm thành Nhóm-0 không?
Tuyên bố: dữ liệu của tài liệu được sao chép nhiều nhất là K lần, sao cho toàn bộ nội dung của tài liệu có thể được phân phối ở mọi bộ giảm tốc.
Điều đó có nghĩa là K bằng không. của các nút giảm tốc? Nếu không thì chúng ta đang lãng phí các nút tính toán ngay, mà không sử dụng chúng đúng không?
Nghi ngờ chính: K có bằng số lượng Nút giảm tốc không ??
Hy vọng phản hồi!
Cảm ơn!
Tôi không nghĩ rằng bạn đang đem lại cho chúng ta đủ thông tin để hiểu thuật toán này ... –
Về cơ bản, có hai loại kết quả đầu ra Mapper: 1., –
Về cơ bản, có hai loại đầu ra mapper: a . khóa: , val: b. khóa: , val: . Loại đầu ra đầu tiên có thể tiếp cận bất kỳ bộ giảm tốc nào dựa trên phần thứ hai của phần thứ hai của khóa, tức là j. Mục đích là để nhóm lại với nhau tại bất kỳ bản ghi dụ nào từ bất kỳ đầu ra bản đồ nào có cùng "i" ở phần đầu tiên của khóa.Phím phải được nhân bản k lần để đạt được mọi trường hợp giảm, sao cho mỗi bản ghi giao lộ với i là phần đầu của khóa nhận dữ liệu i. Điều này có nghĩa là k phải được nhân rộng nhiều lần như không. của các nút giảm ??? –