Một số địa điểm cho biết số lần giảm số mặc định trong công việc Hadoop là 1. Bạn có thể sử dụng biểu tượng mapred.reduce.tasks để đặt số lượng bộ giảm tốc theo cách thủ công.Làm thế nào để Hive chọn số lượng bộ giảm tốc cho một công việc?
Khi tôi chạy công việc Hive (trên Amazon EMR, AMI 2.3.3), nó có một số bộ giảm số lớn hơn một. Nhìn vào các thiết lập công việc, một cái gì đó đã đặt mapred.reduce.tasks, tôi giả sử Hive. Làm thế nào để nó chọn số đó?
Lưu ý: đây là một số tin nhắn trong khi chạy một công việc Hive mà phải là một đầu mối:
...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
...
Câu hỏi hay. Cụ thể, khi nào hive chọn để làm 'Số nhiệm vụ giảm được xác định tại thời gian biên dịch' và khi nào nó chọn làm' ước tính từ kích thước dữ liệu đầu vào'? – ihadanny
thêm rằng trong câu trả lời dưới đây –