Sau khi CSV được tải qua read.csv
, nó khá tầm thường khi sử dụng multicore
, segue
v.v. để phát xung quanh với dữ liệu trong CSV. Đọc nó trong, tuy nhiên, là khá thời gian chìm.R: Có thể thực hiện song song/tăng tốc độ đọc của 20 triệu hàng CSV cộng vào R không?
Nhận ra nó tốt hơn để sử dụng mySQL vv vv
Giả sử việc sử dụng một 8xl AWS cụm dụ tính toán chạy R2.13
Specs như sau:
Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)
Bất kỳ suy nghĩ/ý tưởng Nhiều đánh giá cao.
Câu hỏi này cũng có thể thú vị cho bạn: http://stackoverflow.com/questions/9061736/faster-than-scan-with-rcpp –
Hoặc câu hỏi này cũng http://stackoverflow.com/questions/1727772/nhanh-đọc-rất-lớn-bảng-như-dataframes-in-r –