Tôi biết nó có vẻ kỳ lạ, nhưng đây là kịch bản của tôi:Hạt nhân CUDA có thể gọi hàm cublas không?
Tôi cần thực hiện phép nhân ma trận (A (n * k) * B (k * n)), nhưng tôi chỉ cần các phần tử chéo được đánh giá cho ma trận đầu ra. Tôi đã tìm kiếm thư viện cublas và không tìm thấy bất kỳ chức năng cấp 2 hoặc 3 nào có thể thực hiện điều đó. Vì vậy, tôi quyết định phân phối mỗi hàng của A và mỗi cột B thành các chuỗi CUDA. Đối với mỗi luồng (idx), tôi cần tính toán sản phẩm chấm "A [idx,:] * B [:, idx]" và lưu nó làm đầu ra đường chéo tương ứng. Bây giờ kể từ khi sản phẩm chấm này cũng mất một thời gian, và tôi tự hỏi liệu tôi bằng cách nào đó có thể gọi chức năng cublas ở đây (nói cublasSdot) để đạt được nó.
Nếu tôi bỏ lỡ một số chức năng cublas có thể đạt được mục tiêu của tôi trực tiếp (chỉ tính toán các yếu tố đường chéo cho phép nhân ma trận ma trận), câu hỏi này có thể bị loại bỏ.
Lưu ý rằng tính song song động, tính năng cho phép các cuộc gọi hạt nhân lồng nhau, chỉ được hỗ trợ trên Kepler GK110, một chip vừa được phát hành. GK110 chỉ có trong các sản phẩm tính giá cao cấp, với sản phẩm trung cấp là Tesla K20 với giá 3200 USD. –
Vì vậy, đối với tesla m2090, đây là một GPU fermi, sự tương đồng năng động có thể không được hỗ trợ, phải không? –
Hoàn toàn không được hỗ trợ, bạn có thể tạo hạt nhân khác để thực hiện điều đó trên GPU – RSFalcon7