Nếu môi trường của tôi thiết lập như sau:
-64MB HDFS chặn
-5 máy chủ tablet
-10 tablet kích thước 1GB mỗi mỗi viên thuốc máy chủKhi nói đến MapReduce như thế nào là viên Accumulo ánh xạ tới một HDFS chặn
Nếu tôi có một bảng như sau:
rowA | f1 | q1 | v1
rowA | f1 | q2 | v2
rowB | f1 | q1 | v3
rowC | f1 | q1 | v4
rowC | f2 | q1 | v5
rowC | f3 | q3 | v6
Từ tài liệu nhỏ, tôi biết tất cả dữ liệu về rowA sẽ chuyển một máy tính bảng có thể có hoặc không chứa dữ liệu về các hàng khác tức là tất cả hoặc không có hàng nào. Vì vậy, câu hỏi của tôi là:
Các máy tính bảng được ánh xạ tới khối Datanode hoặc HDFS như thế nào? Rõ ràng, một máy tính bảng được chia thành nhiều khối HDFS (8 trong trường hợp này) vì vậy chúng sẽ được lưu trữ trên cùng một hoặc datanode khác nhau (s) hay không nó không quan trọng?
Trong ví dụ trên, tất cả dữ liệu về RowC (hoặc A hoặc B) có đi cùng khối HDFS hoặc các khối HDFS khác không?
Khi thực hiện một bản đồ giảm công việc tôi sẽ nhận được bao nhiêu người lập bản đồ? (một cho mỗi khối hdfs? hoặc mỗi máy tính bảng? hoặc mỗi máy chủ?)
Cảm ơn bạn trước cho bất kỳ và tất cả các đề xuất.
Không chắc chắn. Trong sự tò mò, tại sao bạn quan tâm đến số lượng người lập bản đồ? Nói chung, bạn sẽ khởi động máy quét Accumulo để truy cập dữ liệu trong các hàng. Các máy quét cung cấp một mức trừu tượng, do đó bạn không cần phải tự mình thực hiện các công việc MapReduce. – 10flow
Tôi đang viết công việc Mapreduce mà đọc từ và viết để tích lũy bảng. Trong ví dụ trên, hãy để tôi gọi tất cả dữ liệu từ một hàng, một "bản ghi". Vì vậy, tôi đang cố gắng tìm ra thứ tự các hồ sơ này sẽ đi vào. Điều này tất nhiên phụ thuộc vào sự lây lan của chúng. – chapstick