Matlab + CUDA chậm trong việc giải phương trình vector-ma trận A * x = B

Tôi tính phương trình A * x = B, trong đó A là ma trận và B là vectơ, x là vectơ trả lời (không xác định).Matlab + CUDA chậm trong việc giải phương trình vector-ma trận A * x = B

phần cứng thông số kỹ thuật: 3630QM i7 của Intel (4 lõi), nVidia GeForce GT 640M (384 lõi CUDA)

Dưới đây là một ví dụ:

>> A=rand(5000); 

>> B=rand(5000,1); 

>> Agpu=gpuArray(A); 

>> Bgpu=gpuArray(B); 

>> tic;A\B;toc; 

Elapsed time is 1.382281 seconds. 

>> tic;Agpu\Bgpu;toc; 

Elapsed time is 4.775395 seconds.

Bằng cách nào đó GPU là chậm hơn nhiều ... Tại sao ? Nó cũng chậm hơn trong các phép tính FFT, INV, LU, nên liên quan đến phép phân chia ma trận.

Tuy nhiên, GPU nhanh hơn nhiều trong nhân ma trận (cùng một dữ liệu):

>> tic;A*B;toc; 

Elapsed time is 0.014700 seconds. 

>> tic;Agpu*Bgpu;toc; 

Elapsed time is 0.000505 seconds.

Câu hỏi chính là lý do tại sao GPU A \ B (mldivide) như vậy là chậm so với CPU?

CẬP NHẬT

Dưới đây là một số kết quả hơn khi A, B (trên CPU), AA, BB (trên GPU) là rand (5000):

>> tic;fft(A);toc; 
Elapsed time is *0.117189 *seconds. 
>> tic;fft(AA);toc; 
Elapsed time is 1.062969 seconds. 
>> tic;fft(AA);toc; 
Elapsed time is 0.542242 seconds. 
>> tic;fft(AA);toc; 
Elapsed time is *0.229773* seconds. 
>> tic;fft(AA);toc;

lần Bold là lần ổn định. Tuy nhiên, GPU chậm hơn gần gấp hai lần. Nhân tiện, tại sao GPU thậm chí còn chậm hơn trong hai lần thử đầu tiên? Nó được biên dịch hai lần trước?

Ngoài ra:

>> tic;sin(A);toc; 
Elapsed time is *0.121008* seconds. 
>> tic;sin(AA);toc; 
Elapsed time is 0.020448 seconds. 
>> tic;sin(AA);toc; 
Elapsed time is 0.157209 seconds. 
>> tic;sin(AA);toc; 
Elapsed time is *0.000419 *seconds

Sau hai tính toán GPU là vô cùng nhanh hơn trong các phép tính tội lỗi.

Vì vậy, vẫn còn, tại sao GPU quá chậm trong phân chia ma trận, tính toán fft và tương tự, mặc dù quá nhanh trong nhân ma trận và lượng giác? Câu hỏi thực sự không nên như vậy ... GPU nên nhanh hơn trong tất cả các tính toán này vì Matlab đã phát hành các chức năng chồng chéo (mldivide, fft) cho GPU.

Ai đó có thể giúp tôi giải quyết những vấn đề này không? :)

Nguồn

2013-02-16 Aurimas Šimkus

Mặc dù đây không phải là tình huống chính xác vì bạn đang sử dụng trình giải quyết trực tiếp thay vì phương pháp không gian con krylov, có một số thông tin thú vị trên trang web của vienacl dưới điểm chuẩn. Nếu bạn xem xét điều này: http://viennacl.sourceforge.net/viennacl-benchmarks.html bạn sẽ nhận thấy rằng trong hầu hết các tình huống, CPU nhanh hơn CPU cho ma trận nhỏ hơn, điều này một phần là do bản chất của giải quyết lặp lại, nhưng nó cũng giống như họ nói kết quả của "chi phí khởi động hạt nhân GPU không thể tránh khỏi do độ trễ PCI-Express" có khả năng có ảnh hưởng tương tự cho bạn. – johnish

@johnish Tôi không chắc chắn rằng trong trường hợp này thời gian dài hơn nên được gán cho chi phí khởi động hạt nhân GPU do độ trễ PCI-Express. Đối với các ma trận có cùng kích thước, phép nhân ma trận trên GPU mất 0.000505s, vì vậy tôi sẽ kết luận rằng chi phí trên là <0.000505s, trong khi mldivide mất 4.775395s. Tôi sẽ kết luận rằng các độ trễ trong trường hợp này hoàn toàn bị che khuất bởi thời gian xử lý có thể dài hơn trên CPU đối với các ma trận "nhỏ", như bạn đã quan sát. Untile gần đây, Accelereyes Jacket thực hiện một công việc tốt cho các nhiệm vụ như vậy, nhưng có vẻ như nó đã được tích hợp trong Matlab bây giờ. – JackOLantern

Vui lòng đọc cách Matlab tính toán các giải pháp. Nó sẽ giúp bạn hiểu tại sao GPU chậm hơn.

Tôi sẽ thử nói bằng vài từ.

A * x = b trở nên L * (U * x = y) = b, L * U = A

Vì vậy Matlab làm từ A đến L * U (Quá trình này có thể không được thực hiện đầy đủ song song theo như tôi biết thay vào đó, một số bước có thể được thực hiện song song, do bản chất của chúng)
Sau đó Matlab giải quyết L * y = B và tìm y. (Quá trình này không thể được thực hiện song song vì mỗi bước yêu cầu dữ liệu từ trước)
Sau đó Matlab giải quyết U * x = y và tìm x. (Quá trình này không thể thực hiện được song song vì mỗi bước yêu cầu dữ liệu từ trước đó)

Vì vậy, đồng hồ GPU chậm hơn CPU và vì quy trình không thể thực hiện song song, CPU nhanh hơn. Và không, trừ khi bạn đưa ra một phương pháp tốt hơn (chúc may mắn!) Thì GPU sẽ luôn chậm hơn trừ một số trường hợp rất cụ thể.

Nguồn

2013-04-14 23:03:47 ntarki

cần lưu ý rằng 'mldivide' (ít nhất là trong phiên bản CPU) có các đường dẫn thực thi khác nhau tùy thuộc vào các thuộc tính ma trận đầu vào. Nhưng đối với một ma trận dày đặc phi vuông đối xứng không đối xứng tam giác, hệ số LU thực sự được sử dụng: http://www.mathworks.com/support/solutions/en/data/1-172BD/index.html?product=ML&solution= 1-172BD – Amro

Phần 1 của giải thích nằm trong câu trả lời từ user2230360, nhưng câu hỏi của bạn là gấp đôi, vì vậy tôi sẽ thêm một chút về phép nhân.

Như đã lưu ý, hệ số LU không phải là rất dễ dàng song song ngay cả khi một số bước có thể. Ma trận nhân, tuy nhiên, là rất nhiều song song. Nếu bạn đang làm việc với những điều này bạn có thể làm phép nhân bằng ma trận, và sau đó bạn sẽ biết rằng việc tính toán các phần tử của ma trận C trong A * B = C có thể được thực hiện theo bất kỳ thứ tự nào bạn muốn - do đó khả năng để tính toán song song. Đó có lẽ là lý do tại sao bạn nhìn thấy phép nhân nhanh như chớp, nhưng giải quyết chậm các hệ thống tuyến tính. Người ta không thể song song "nhiều như người kia".

Nguồn

2014-01-22 08:59:53 pkofod

Matlab + CUDA chậm trong việc giải phương trình vector-ma trận A * x = B

Trả lời

Các vấn đề liên quan