http://www.7-cpu.com/cpu/Cortex-A15.html

TLBミスかも?L1 32entry で L1ミスが12cycleだとつらい気がする。

そうすると最内はもっと横に伸ばして6x2とかのほうがいいのか?かつK方向ループは16がいいの?

というのは今はRが縦方向に128個ロードしていて、次のループで再利用している。あと64byte使い切ってるから縦でもいいはず。さらにL1が32KB 2way LRUだとすると、512ライン分は入るはずなので、最内は入る気がするんだよな。でも見た感じ入ってる挙動ではない。