Tôi đang tìm hàm multiscan/đa tiền tố hiệu suất cao (nhiều hàng trong một thực thi hạt nhân) cho dự án của tôi trong CUDA.chức năng tổng hợp/quét tiền tố hiệu năng cao trong CUDA, tìm kiếm lực đẩy, thư viện cuDPP thay đổi
Tôi đã thử một từ thư viện Thrust nhưng đó là một cách quá chậm. Ngoài ra lực đẩy đâm sau khi được biên dịch với cờ gỡ lỗi nvcc (-g -G).
Sau khi thất bại với Lực đẩy, tôi tập trung vào thư viện cuDPP vốn từng là một phần của bộ công cụ CUDA. Hiệu suất cuDPP thực sự tốt nhưng thư viện không cập nhật với cuda 5.5 mới nhất và có một số vấn đề vi phạm bộ nhớ toàn cục trong hàm cudppMultiScan() trong khi gỡ rối với bộ kiểm tra bộ nhớ. (cuda 5.5, nsight 3.1, studio trực quan 2010, gtx 260 cc 1.3)
Có ai có ý tưởng gì để sử dụng thay vì hai thư viện này không?
R.
Bạn đã xem [ArrayFire] (http://accelereyes.com/arrayfire), chúng tôi làm việc với AccelerEyes chưa? – arrayfire
không, chưa từng thấy trước đây, trông khá thú vị! cảm ơn! :) những gì về hiệu quả của nó? Có năng suất hay thư viện định hướng hiệu suất hơn không? – user1946472
Nếu bạn muốn sử dụng Lực đẩy để quét các hàng của ma trận, không gọi lại 'bao gồm_scan'. Chỉ định mỗi hàng một chỉ mục và sử dụng 'including_scan_by_key'. Bạn có thể điều chỉnh [ví dụ] này (https://github.com/thrust/thrust/blob/master/examples/sum_rows.cu). –