いや

  • 128x128x9 = 147456 = 3SM あればレジスタに乗る。outputPlane を 65535(強いNVIDIA)レジスタあるマシンでは3つか4つ、32768(弱いNVIDIA)マシンでは8ぐらい、16384(AMD)では16ぐらいに分ける

これが正解な気がしてきた。レジスタが無限にあるなら、演算:メモリ比は 1000:1 ぐらいあって、メモリアクセスの無駄は10x程度までは許容できる、AMDではワースト30xか60xぐらいになりそうだけど、L2がいくらか効くだろうから、実際にはもうちょっと抑えられるのではないか?