x86/x64最適化勉強会4

http://atnd.org/events/28847
行ってきた。

またしても人の話聞かないで直前まで資料作っていた。もはや風物詩になりつつあるな…JITの話ちゃんと聞きたかったんだが…

資料↓
http://int.main.jp/txt/bulldozer/index.html (ust)
今回は壁紙ネタできたので満足。

当日も質問あって、Nehalem/Core2とかは16byteフェッチだから、それと比べたら22byteフェッチは悪くないんでは?
と、いうのがあって、もうちょっとちゃんと調べたかったが、昨日何もしなかったので諦めて上げておこう。


分岐とかメモリとかについて全く調べてないが、そのへんがIntelより勝ってるとは思えないので、こんなもんかなぁ。

印象としては、

  • スループット(理論性能)自体は、Bull 1M2Cと、Ivy 1C2T で同じくらい
  • Ivy は1スレッドで1コアの性能を使い切れるが、Bullは2スレッド使わないとスループット出ない

という感じ。



あと当日は全く解説しなかったが、ベンチマークのfloadop2

   movss xmm0, [mem]
   mulss xmm0, [mem+4]

が、相当高い確率で異様に遅いのだが、これ何だろうか。