Tôi đang làm một số thử nghiệm với nutch và hadoop và tôi cần một lượng lớn dữ liệu. Tôi muốn bắt đầu với 20 GB, truy cập 100 GB, 500 GB và cuối cùng đạt tới 1-2 TB.Làm thế nào để sản xuất số lượng lớn dữ liệu?
Vấn đề là tôi không có số lượng dữ liệu này, vì vậy tôi đang nghĩ cách tạo ra nó.
Bản thân dữ liệu có thể thuộc bất kỳ loại nào. Một ý tưởng là lấy một bộ dữ liệu ban đầu và sao chép nó. Nhưng nó không đủ tốt vì cần các tệp khác nhau (các tệp giống nhau bị bỏ qua).
Một ý tưởng khác là viết chương trình sẽ tạo tệp có dữ liệu giả.
Bạn có ý tưởng nào khác không?
Dữ liệu truy vấn từ anitcs của google? – Sephy
Chà, một chương trình như thế sẽ tốn nhiều thời gian để chạy. –
Bạn đã cân nhắc việc tạo các số ngẫu nhiên chưa? –