Bây giờ Amazon tự nó có trình bao bọc được triển khai trên distcp, cụ thể là: s3distcp.
S3DistCp là một phần mở rộng của DistCp được tối ưu hóa để làm việc với Amazon Web Services (AWS), đặc biệt là Amazon Simple Storage Service (Amazon S3). Bạn sử dụng S3DistCp bằng cách thêm nó như một bước trong luồng công việc. Sử dụng S3DistCp, bạn có thể sao chép hiệu quả một lượng lớn dữ liệu từ Amazon S3 vào HDFS nơi nó có thể được xử lý bằng các bước tiếp theo trong dòng công việc Amazon Elastic MapReduce (Amazon EMR) của bạn. Bạn cũng có thể sử dụng S3DistCp để sao chép dữ liệu giữa xô Amazon S3 hoặc từ HDFS đến Amazon S3
Ví dụ Chép file log từ Amazon S3 để HDFS
Ví dụ sau này minh họa làm thế nào để sao chép các tập tin đăng nhập được lưu trữ trong một thùng S3 của Amazon vào HDFS. Trong ví dụ này, tùy chọn --srcPattern được sử dụng để giới hạn dữ liệu được sao chép vào các bản ghi daemon.
elastic-mapreduce --jobflow j-3GY8JC4179IOJ --jar \
s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar \
--args '--src,s3://myawsbucket/logs/j-3GY8JC4179IOJ/node/,\
--dest,hdfs:///output,\
--srcPattern,.*daemons.*-hadoop-.*'
vẫn gặp lỗi trong khi chuyển s3 sang hdfs bằng distcp. trong trường hợp của tôi tôi đang tring để di chuyển tập tin rất lớn (hơn sau đó 300GB) sau khi di chuyển 40 hoặc 50% nó bắt đầu hình thức bắt đầu không biết tại sao. bất kỳ ý tưởng?? – rht