Nếu ai đó xây dựng cơ sở dữ liệu trên cơ sở dữ liệu khác, chẳng hạn như twitter đã thực hiện, cơ sở dữ liệu đó có kế thừa các hạn chế và không hiệu quả của cơ sở dữ liệu cơ bản không?Cơ sở dữ liệu đồ thị có thể phân phối dữ liệu hiệu quả trên các nút không?
Tôi đặc biệt quan tâm đến titan db (http://thinkaurelius.com) vì yêu cầu của họ hỗ trợ chia tách tập dữ liệu một cách hiệu quả trên các nút.
Họ tuyên bố hỗ trợ phân phối dữ liệu trên các nút, vì hiệu quả của cassandra. Tuy nhiên, neo4j cho rằng lý do chúng không phân phối dữ liệu giữa các nút, nhưng thay vì sao chép toàn bộ tập dữ liệu trên mỗi nút, bởi vì bất kỳ quá trình truyền tải biểu đồ nào rời khỏi một nút và phải di chuyển qua mạng ethernet, là quá chậm thực tế.
Vì cassandra không có kiến thức về biểu đồ, nên nó không thể tối ưu hóa để giữ cho quá trình truyền tải đồ thị trên một nút. Do đó, hầu hết các traversals đồ thị sẽ được trên các ranh giới nút.
Người khổng lồ có yêu cầu chia tỷ lệ hiệu quả trên các nút đúng không?
Dường như Titan hỗ trợ bất kỳ loại biểu đồ nào, vì cassandra (được cho là) không biết gì về đồ thị - chỉ là dữ liệu thô. Không may, tôi không có một vài máy chủ để sử dụng để thử nghiệm. Tôi không nghĩ rằng một điểm chuẩn trên 5 máy ảo đang chạy trên cùng ổ đĩa cứng, với một mạng nội bộ sẽ là một cách công bằng để kiểm tra điều này. –