いや

最初からあの表(仮にTB(Thread Block)表としておく)を書く前提でプログラム書いていれば、TB表を書くだけで自動的に最適値が求まる、と、考えれば、x86のようにプリフェッチの距離どのくらいにしたらいいかわからなくて手当たり次第に試す、とかよりも美しいという気がするな。


つまり、あらゆるものをマルチスレッドで扱うようにしたから、チューニングパラメータもスレッド数の調整だけになって美しい、と考えるべきか。
(まあ、実際のチューニングにはもっと細かい問題があるので、それだけで問題が解決するわけではないが、細かい問題は大体どのアーキテクチャでも平等に存在するので、とりあえずここではどうでもいいとしておく。)