あ?
http://docs.nvidia.com/cuda/cuda-c-programming-guide/#arithmetic-instructions
shuffle 遅いのか…doubleだと二回やらないといけないしなんかそれほどメリットない気がするな。
というか今見て気づいたが、sm5.0、32bitも24bitも整数乗算遅いとか何それ?
http://docs.nvidia.com/cuda/cuda-c-programming-guide/#arithmetic-instructions
shuffle 遅いのか…doubleだと二回やらないといけないしなんかそれほどメリットない気がするな。
というか今見て気づいたが、sm5.0、32bitも24bitも整数乗算遅いとか何それ?