Tôi muốn thêm bốn thành phần của thanh ghi SSE để lấy một phao đơn. Đây là cách tôi làm ngay bây giờ:thêm các thành phần của thanh ghi SSE
float a[4];
_mm_storeu_ps(a, foo128);
float x = a[0] + a[1] + a[2] + a[3];
Có hướng dẫn SSE nào trực tiếp đạt được điều này không?
Tôi nghi ngờ nó tồn tại, nhưng nếu có, lệnh sẽ có khả năng đặt kết quả trong vùng 32 bit của thanh ghi đầu ra 128 bit, không phải trong bản đăng ký 32 bit. –