2012-08-29 27 views
10

Chúng tôi muốn sử dụng Amazon Elastic MapReduce trên đầu trang DB hiện tại của chúng tôi (chúng tôi đang sử dụng Cassandra trên EC2). Nhìn vào Câu hỏi thường gặp về EMR của Amazon, có thể: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Định cấu hình nguồn dữ liệu ngoài cho Elastic MapReduce

Tuy nhiên, khi tạo luồng công việc mới, chúng tôi chỉ có thể định cấu hình thùng S3 làm nguồn dữ liệu đầu vào.

Bất kỳ ý tưởng/mẫu nào về cách thực hiện việc này?

Cảm ơn!

P .: Tôi đã nhìn thấy câu hỏi này How to use external data with Elastic MapReduce nhưng câu trả lời không thực sự giải thích cách thực hiện/cấu hình nó, đơn giản là điều đó là có thể.

Trả lời

0

Hãy thử sử dụng scp để sao chép các tập tin để dụ EMR của bạn:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file 

(hoặc sử dụng ftp, hoặc wget, hoặc curl, hoặc bất cứ điều gì khác mà bạn muốn)

sau đó đăng nhập vào dụ EMR của bạn với ssh và tải nó vào hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file 
1

Làm thế nào là bạn xử lý dữ liệu? EMR chỉ là quản lý hadoop. Bạn vẫn cần phải viết một quá trình của một số loại.

Nếu bạn đang viết một công việc Hadoop Mapreduce, thì bạn đang viết java và bạn có thể sử dụng apandra Cassandra để truy cập nó.

Nếu bạn muốn sử dụng cái gì đó như tổ ong, bạn sẽ cần phải viết bộ xử lý lưu trữ Hive để sử dụng dữ liệu được Cassandra hỗ trợ.