"Hỗ trợ cho khối hệ thống tập tin S3 đã được thêm vào $ {HADOOP_HOME}/bin/hadoop cụ distcp trong Hadoop 0.11.0 (Xem Hadoop-862). Các công cụ distcp thiết lập một công việc MapReduce Sử dụng distcp, một nhóm nhiều thành viên có thể sao chép rất nhiều dữ liệu một cách nhanh chóng Số nhiệm vụ bản đồ được tính bằng cách đếm số lượng tệp trong nguồn: nghĩa là mỗi tác vụ bản đồ chịu trách nhiệm sao chép một tệp. Ví dụ, nguồn có thể tham chiếu đến hệ thống tập tin cục bộ hoặc hdfs với S3 làm mục tiêu. "
Kiểm tra chạy bản sao số lượng lớn trong và ngoài S3 tại đây http://wiki.apache.org/hadoop/AmazonS3
Nguồn
2010-09-16 02:30:43
cách tiếp cận khác có thể được sử dụng S3 thay vì HDFS với Hadoop bạn có thể tìm thấy tất cả các thành tích và demerits của phương pháp này here Và nếu bạn nghĩ rằng nó sẽ là thích hợp để thiết lập S3 cho Hadoop Cụm bạn có thể refer here – user1855490