x86/x64最適化勉強会1
行ってきた。
僕の資料は↓
http://int.main.jp/txt/k10/index.html
raytraceでK10がロードストアで止まってるのは、アドレスのdisambiguationの問題と言ってたけど、よく考えたらキャッシュのバンクコンフリクトだった、ので訂正しておきます…
pcmpXstrXは昔試してみてあんま速くならんなー、と思ってたんだが、フラグの使い方を真面目に考えないといけないっぽいな、というのと、あとで聞いた話で、OpenJDKはデバッグ情報のサイズ減らすためにDWARF2じゃなくてstubs使うのがデフォルトになっているというのがなるほどなー、と思った。
あとでちゃんと書きたい。
- 6C12Tのマシンで7スレッド動かすと遅くなる理由
- プロセッサのイベントの取り方/読み方