x86/x64最適化勉強会4

またしても人の話聞かないで直前まで資料作っていた。もはや風物詩になりつつあるな…JITの話ちゃんと聞きたかったんだが…

資料↓
http://int.main.jp/txt/bulldozer/index.html (ust)
今回は壁紙ネタできたので満足。

当日も質問あって、Nehalem/Core2とかは16byteフェッチだから、それと比べたら22byteフェッチは悪くないんでは？
と、いうのがあって、もうちょっとちゃんと調べたかったが、昨日何もしなかったので諦めて上げておこう。

分岐とかメモリとかについて全く調べてないが、そのへんがIntelより勝ってるとは思えないので、こんなもんかなぁ。

印象としては、

という感じ。

あと当日は全く解説しなかったが、ベンチマークのfloadop2

   movss xmm0, [mem]
   mulss xmm0, [mem+4]

が、相当高い確率で異様に遅いのだが、これ何だろうか。