Tôi có rất nhiều dữ liệu để đồng bộ hóa trên 4 hoặc 5 trang web trên khắp thế giới, khoảng một nửa terabyte tại mỗi trang web. Điều này thay đổi (thêm hoặc thay đổi) khoảng 1,4 Gigabyte mỗi ngày và dữ liệu có thể thay đổi tại bất kỳ vị trí nào trong số bốn trang web.Cách tốt nhất để đồng bộ hóa lượng lớn dữ liệu trên toàn thế giới là gì?
Một tỷ lệ phần trăm lớn (30%) dữ liệu là các gói trùng lặp (Có lẽ các gói JDK đóng gói), vì vậy giải pháp sẽ phải bao gồm cách chọn thực tế có những thứ nằm trên máy cục bộ và lấy chúng thay vì tải xuống từ một trang web khác.
Việc kiểm soát phiên bản không phải là một vấn đề, đây không phải là một mã số cá nhân.
Tôi chỉ quan tâm nếu có bất kỳ giải pháp nào ngoài đó (tốt nhất là nguồn mở) gần với điều như vậy?
Tập lệnh con của tôi bằng rsync không cắt mù tạt nữa, tôi muốn thực hiện đồng bộ hóa thông minh phức tạp hơn.
Cảm ơn
Chỉnh sửa: Điều này nên được dựa trên UNIX :)
Đây là * gần như * đúng và tôi đặc biệt thích liên kết tới trang web. Với Unison, nó không nhìn vào hệ thống tập tin cục bộ cho giải pháp đầu tiên, nói trong thư mục cha hoặc một thư mục chị em (tôi thậm chí muốn xác định điều này). Nếu kích thước, tên, thời gian mod, tổng kiểm tra giống nhau, hãy lấy nó ... – Spedge
Tại sao bạn không sử dụng liên kết thay thế cho điều này, thay vì sao chép các JDK này và không có gì? Dường như không phải lo lắng về việc sao chép những thứ mà chắc chắn không cần sao chép. Unison SILL đồng bộ các liên kết ... do đó sẽ làm việc, và làm giảm bạn của một số nhu cầu không gian và một số nhức đầu –