2011-12-24 14 views
8

Là một phần của dự án lập trình gần đây, tôi đã biên soạn một cơ sở dữ liệu, nội dung trong đó có thể được sử dụng cho người khác một ngày nào đó. Tôi đang tìm cách tốt nhất để 'nguồn mở' dữ liệu.Cách tốt nhất để mở dữ liệu nguồn (thay vì mã) là gì?

Tôi có thể (và có thể sẽ) tải SQL lên GitHub, nhưng tự hỏi liệu có ai tìm thấy cách chia sẻ dữ liệu tập trung hơn không - có thể là một trang web giúp người dùng dễ dàng duyệt/truy vấn/hình dung/cải thiện bộ dữ liệu, thay vì chỉ cho họ một khối lượng lớn SQL.

Để làm rõ, tôi đang tìm một nơi mà tôi có thể chia sẻ dữ liệu, chứ không phải định dạng để chia sẻ dữ liệu - lý tưởng là một tập dữ liệu tương đương GitHub/Sourceforge.

Dữ liệu tương đối nhỏ (một vài nghìn dòng SQL) nên khối lượng không phải là một trở ngại.

+1

Chủ đề của dữ liệu là gì? – Paul

+0

Và tập dữ liệu lớn bao nhiêu? Người dùng có thể tải xuống nhanh chóng một cách hợp lý không? –

Trả lời

2

Tôi là người hâm mộ lớn của Amazon's S3 cho những nội dung như thế này. Và nếu tập dữ liệu của bạn đủ thú vị, có thể bạn có thể xuất bản nó với InfoChimps.

+0

Được đánh số thứ hai - cơ sở hạ tầng do InfoChimps cung cấp làm cho tuyến đường này dễ dàng hơn nhiều so với tự phân phối. Nếu một người tự phân phối, S3 cung cấp một tùy chọn lưu trữ tốt. – Iterator

0

Bạn có thể xuất nó sang XML, đó có thể là định dạng dữ liệu tương thích nhất, mặc dù nó khá là tiết. Một giải pháp khác là OData, nhưng điều này ngụ ý lưu trữ dữ liệu và nền tảng phục vụ dữ liệu có thể không được mong muốn.

1

Tôi đã làm việc với rất nhiều dữ liệu từ các công ty khác nhau. Thông thường, dữ liệu này đã ở định dạng dữ liệu phân tách văn bản. Phổ biến nhất của khóa học được phân tách bằng dấu phẩy hoặc tab. Sử dụng dấu phẩy thường là một lựa chọn tốt vì MySQL cũng có thể xuất và nhập CSV. Dưới đây là một ví dụ:

id, first_name, last_name, address 
1, John, Smith, 11222 Stree Name 
1

Google Fusion Tables ve một số trong những hộp, mặc dù nhấn mạnh vẻ là trên visualization (Tôi đã không sử dụng nó, vì vậy điều này có thể không công bằng). Tôi cũng miễn cưỡng cam kết quá nhiều đối với bất kỳ sản phẩm Google cấp hai nào trong những ngày này, vì họ có thói quen biến mất.

0

Sparkfun là một khả năng khác, dường như được nhắm mục tiêu chủ yếu vào nguồn dữ liệu thời gian thực nhưng chúng cung cấp bộ nhớ miễn phí và nền tảng là nguồn mở để bạn có thể lưu trữ máy chủ của riêng mình.