simd

    13Nhiệt

    3Trả lời

    Tôi đang tìm phương pháp hiệu quả nhất để lật dấu trên tất cả bốn phao được đóng gói trong thanh ghi SSE. Tôi không tìm thấy nội tại để thực hiện việc này trong hướng dẫn sử dụng phần mềm Kiến trúc In

    13Nhiệt

    2Trả lời

    Tôi đang viết một số mã và cố gắng tăng tốc nó bằng cách sử dụng SIMD nội tại SSE2/3. Mã của tôi là bản chất như vậy mà tôi cần phải tải một số dữ liệu vào một đăng ký XMM và hành động trên nó nhiều l

    38Nhiệt

    3Trả lời

    Tôi muốn tìm hiểu thêm về cách sử dụng SSE. Có cách nào để tìm hiểu, ngoài việc đọc rõ ràng Intel® 64 and IA-32 Architectures Software Developer's Manuals? Chủ yếu là tôi muốn làm việc với GCC X86 Bui

    6Nhiệt

    3Trả lời

    (Tôi là một newbie để SSE/asm, lời xin lỗi nếu điều này là rõ ràng hoặc không cần thiết) Có cách nào tốt hơn để transpose 8 thanh ghi SSE chứa Giá trị 16 bit so với thực hiện 24 unpck [lh] ps và 8/16

    20Nhiệt

    5Trả lời

    bất kỳ ai cũng có thể giới thiệu thư viện SIMD di động cung cấp API c/C++, hoạt động trên các phần mở rộng của Intel và AMD và Visual Studio, GCC tương thích. Tôi đang tìm cách để tăng tốc độ những th

    5Nhiệt

    5Trả lời

    Tôi cần tối ưu hóa một số mã C, thực hiện rất nhiều tính toán vật lý, sử dụng các phần mở rộng SIMD trên SPE của bộ xử lý tế bào. Mỗi nhà điều hành vector có thể xử lý 4 phao nổi cùng một lúc. Vì vậy,

    6Nhiệt

    5Trả lời

    Tôi có một số mã chạy khá tốt, nhưng tôi muốn làm cho nó chạy tốt hơn. Vấn đề chính tôi có với nó là nó cần phải có một vòng lặp lồng nhau. Cái bên ngoài là cho các phép lặp (mà phải xảy ra serially),