2013-02-11 6 views
6

Có ai đã thử kiểm tra hiệu suất của các nút dữ liệu trên nhiều trung tâm dữ liệu không? Đặc biệt là trên các mạng có đường ống nhỏ. Tôi dường như không thể tìm thấy quá nhiều thông tin về nó và thông tin tôi đã tìm thấy là cũ (khoảng năm 2010) hoặc độc quyền (có vẻ như DataStax có thứ gì đó). Tôi biết Hadoop hỗ trợ nhận thức về giá nhưng tôi đã không thấy bất kỳ tài liệu nào để điều chỉnh hệ thống cho nhiều trung tâm dữ liệu.Phân phối các nút dữ liệu trên nhiều trung tâm dữ liệu

Trả lời

5

Tôi đã thử nó với một 12 x DataNode cụm sắp xếp theo một 2: 1 tỷ lệ phân chia giữa hai trung tâm dữ liệu khoảng 120 dặm. Độ trễ giữa các trung tâm dữ liệu là ~ 4ms trên 2 x 1GbE ống.

2 giá được định cấu hình tại vị trí A, 1 giá được định cấu hình trong trang B. Mỗi "giá" có 4 máy trong đó. Về cơ bản, chúng tôi đã thử nghiệm Trang web B dưới dạng trang web 'DR'. Yếu tố nhân rộng được đặt thành 3.

Câu chuyện dài ngắn, nó hoạt động nhưng hiệu suất thực sự rất tệ. Bạn chắc chắn phải sử dụng nén trên nguồn của bạn, bản đồ và giảm đầu ra để thu nhỏ I/O viết của bạn, và nếu các liên kết giữa các trang web được sử dụng cho bất cứ điều gì khác, bạn sẽ nhận được timeouts trong khi chuyển dữ liệu. Cửa sổ TCP sẽ giới hạn hiệu quả việc truyền của chúng tôi xuống khoảng 4MBps, thay vì 100MBps tiềm năng + trên đường 1GbE.

Tự khắc phục được sự đau đầu và chỉ sử dụng công việc distcp để sao chép dữ liệu!