Trong bộ đếm công việc hadoop, sự khác biệt giữa "Bản đồ đầu ra byte vật liệu" so với "byte đầu ra bản đồ" là gì? Tôi không nhìn thấy trước khi tôi vô hiệu hóa nén đầu ra bản đồ vì vậy tôi đoán nó là byte đầu ra thực (nén) trong khi sau này là byte không nén?"Bản đồ đầu ra byte vật liệu" so với "byte đầu ra bản đồ"
Trả lời
Tôi nghĩ bạn đúng. Từ http://hadoop.apache.org/docs/r1.0.4/releasenotes.html:
MAPREDUCE-2365. Các bộ đếm mới cho FileInputFormat (BYTES_READ) và FileOutputFormat (BYTES_WRITTEN). Bộ đếm mới MAP_OUTPUT_MATERIALIZED_BYTES cho MapOutputSize được nén. (Siddharth Seth)
(Thay đổi từ Hadoop 0.20.2)
.............................. .................................................. .................................................. .................
Dưới đây là một trích dẫn từ Tom White "Hadoop Definitive Guide", 3rd edition (bảng 8-2, trang 261):
"Bản đồ đầu ra vật liệu byte" - Số byte của bản đồ đầu ra thực sự được ghi vào đĩa. Nếu nén đầu ra bản đồ được bật, điều này được phản ánh trong giá trị bộ đếm.
"byte đầu ra bản đồ" - Số byte đầu ra không nén được tạo bởi tất cả bản đồ trong công việc. Được tăng lên mỗi khi phương pháp collect()
được gọi trên OutputCollector
của bản đồ.
Tôi dường như không thấy "Bản đồ xuất các byte được materialized hóa" trong trang chi tiết công việc của tôi. Tôi đang sử dụng Hadoop 2.0.0-mr1-cdh4.2.1. Tôi có phải thực hiện một số thay đổi thiết lập không. –