Goldmont

Goldmont情報全然出てこないし、もうAtom系は終わり(?)かもしれないので、どうせ大した変更入ってないだろと思ってたが、

https://twitter.com/InstLatX64/status/780328535118479360

を見てデコード3になるらしいのでやっぱり変更大きいのではないかという気がした。

なので調べてみた。

https://github.com/tanakamura/instruction-bench/blob/master/glm.log

  • 確かにデコード3っぽい
  • rcpps は 1/6
  • dpps とはなんだったのか

SLM の記録とってないから比較できないな。まあそのうち…

http://d.hatena.ne.jp/w_o/20160619#1466346637

と条件同じにすると、

 Performance counter stats for 'sh -c ../configure ; make -j4':

     316257.223623      task-clock (msec)         #    3.037 CPUs utilized          
           137,387      context-switches          #    0.434 K/sec                  
            34,324      cpu-migrations            #    0.109 K/sec                  
         8,866,202      page-faults               #    0.028 M/sec                  
   683,023,573,273      cycles                    #    2.160 GHz                    
   <not supported>      stalled-cycles-frontend  
   <not supported>      stalled-cycles-backend   
   463,951,050,783      instructions              #    0.68  insns per cycle        
    96,861,409,185      branches                  #  306.274 M/sec                  
     3,428,910,864      branch-misses             #    3.54% of all branches        

     104.117997143 seconds time elapsed
時間[秒] IPC W(load) W(idle) W(load-idle)
rpi3 270 0.44 4.7 1.8 2.9 Cortex A53 4core
rpi2 490 0.32 2.9 1.6 1.3 Cortex A7 4core
parallella 882 0.56 3.5 2.8 0.7 Cortex A9 2core
liva ecs 223 0.49 7.2 3.5 3.7 Silvermont 2core
I3455-ITX 104 0.68 26.5 18.5 8.0 Goldmont 4core

アイドル電力大きいのは多分HDDとかUSBとか付いてるからなので許して。

  • IPC が 0.49 → 0.68 に上がっている。
  • Silvermont 2coreとGoldmont 4coreで比べてるのであんまり良くない

まあ参考程度で…


今のKNLの問題として、デコード2で2個FPUを回さないとフル性能出ないという問題が多分あって(真面目に使ったことないので知らないけど)、使いにくいのだろうけど(分岐とかすると性能低下する)、次の世代(Knights Hill or Knights Mill?)でGoldmontコアが採用されるなら、この問題はかなり改善される気がする。