sse

    6Nhiệt

    1Trả lời

    Tôi có bộ xử lý Xeon W3550 được cho là có hỗ trợ cho bộ lệnh SSE4.2 nhưng khi tôi thử và sử dụng bất kỳ thứ gì trong quá trình SSE2 trong chương trình c của mình, tôi nhận được lỗi trình biên dịch. #e

    6Nhiệt

    1Trả lời

    Tôi muốn viết một macro khí để tạo mã chứa các hướng dẫn movdqu khác nhau để đăng ký xmm tùy thuộc vào tham số n. .macro xxmov n, p1 .if (\n == 1) xor %eax, %eax .endif .if

    11Nhiệt

    1Trả lời

    Tôi đang gặp một số sự cố khi tìm ra tương đương NEON của một vài hoạt động SSE của Intel. Có vẻ như NEON không có khả năng xử lý toàn bộ thanh ghi Q cùng một lúc (kiểu dữ liệu giá trị 128 bit). Tôi k

    9Nhiệt

    3Trả lời

    Một số mẹo/con trỏ chung về vector hóa hoạt động của cây là gì? bố trí bộ nhớ khôn ngoan, thuật toán khôn ngoan vv Một số miền cụ cụ thể: Mỗi nút cha mẹ sẽ có khá một vài (20 - 200) nút con. Mỗi nút c

    22Nhiệt

    1Trả lời

    Tôi đang tìm Intel số kỹ thuật: Intel® 64 và IA-32 Kiến trúc phát triển phần mềm của tay và tôi không thể tìm thấy sự khác biệt giữa MOVDQA: Di chuyển Aligned đúp Quadword MOVAPS: Di chuyển Aligned Đó

    6Nhiệt

    2Trả lời

    Tôi chỉ mới bắt đầu thử nghiệm thêm OpenMP vào một số mã SSE. Chương trình thử nghiệm đầu tiên của tôi SOMETIMES treo trong _mm_set_ps, nhưng hoạt động khi tôi đặt if (0). Dường như đơn giản, tôi phải

    13Nhiệt

    2Trả lời

    Bài đăng này liên quan chặt chẽ đến một bài đăng khác mà tôi đã đăng some days ago. Lần này, tôi đã viết một mã đơn giản chỉ cần thêm một mảng các phần tử, nhân kết quả bằng các giá trị trong mảng khá

    11Nhiệt

    2Trả lời

    Làm cách nào để kiểm tra xem biến số __m128i có bất kỳ giá trị không đồng bộ nào trên bộ xử lý SSE-2 và cũ hơn không?

    8Nhiệt

    2Trả lời

    Tôi đang sử dụng intrinsics SSE2 để tối ưu hóa sự vướng mắc của ứng dụng của tôi và có những câu dưới đây: ddata = _mm_xor_si128(_mm_xor_si128( _mm_sll_epi32(xdata, 0x7u), _mm_srl_epi32(tdata, 0x1

    6Nhiệt

    1Trả lời

    Tôi đang làm việc trong tối ưu hóa thuật toán sử dụng các chỉ lệnh SSE2. Nhưng tôi đã chạy vào vấn đề này khi tôi đã được thử nghiệm hiệu suất: I) Intel E6750 Làm 4 lần so với thuật toán phi SSE2 mất