キャッシュむずい
うーん…
#include <stdio.h> #include <stdlib.h> #include <emmintrin.h> static unsigned int rdtsc(void) { unsigned int lo,hi; asm volatile ("rdtsc" :"=a"(lo), "=d"(hi)); return lo; } #define W 256 #define H 4096 void copy1(__m128i *src, __m128i *dest) { int i,j; for (i=0; i<H; i++) { for (j=0; j<W; j++) { dest[(i+0)*W+j] = src[(i+0)*W+j]; } } } void copy2(__m128i *src, __m128i *dest) { int i,j; for (i=0; i<H; i+=2) { for (j=0; j<W; j++) { __m128i a,b; a = src[(i+0)*W+j]; b = src[(i+1)*W+j]; dest[(i+0)*W+j] = a; dest[(i+1)*W+j] = b; } } } void copy4(__m128i *src, __m128i *dest) { int i,j; __m128i a,b,c,d; for (i=0; i<H; i+=4) { for (j=0; j<W; j++) { a = src[(i+0)*W+j]; b = src[(i+1)*W+j]; c = src[(i+2)*W+j]; d = src[(i+3)*W+j]; dest[(i+0)*W+j] = a; dest[(i+1)*W+j] = b; dest[(i+2)*W+j] = c; dest[(i+3)*W+j] = d; } } } void copy16(__m128i *src, __m128i *dest) { int i,j; for (i=0; i<H; i+=16) { for (j=0; j<W; j++) { dest[(i+0)*W+j] = src[(i+0)*W+j]; dest[(i+1)*W+j] = src[(i+1)*W+j]; dest[(i+2)*W+j] = src[(i+2)*W+j]; dest[(i+3)*W+j] = src[(i+3)*W+j]; dest[(i+4)*W+j] = src[(i+4)*W+j]; dest[(i+5)*W+j] = src[(i+5)*W+j]; dest[(i+6)*W+j] = src[(i+6)*W+j]; dest[(i+7)*W+j] = src[(i+7)*W+j]; dest[(i+8)*W+j] = src[(i+8)*W+j]; dest[(i+9)*W+j] = src[(i+9)*W+j]; dest[(i+10)*W+j] = src[(i+10)*W+j]; dest[(i+11)*W+j] = src[(i+11)*W+j]; dest[(i+12)*W+j] = src[(i+12)*W+j]; dest[(i+13)*W+j] = src[(i+13)*W+j]; dest[(i+14)*W+j] = src[(i+14)*W+j]; dest[(i+15)*W+j] = src[(i+15)*W+j]; } } } void copyN(__m128i *src, __m128i *dest, int n) { int i,j,k; for (i=0; i<H; i+=n) { for (j=0; j<W; j++) { for (k=0; k<n; k++) { dest[(i+k)*W+j] = src[(i+k)*W+j]; } } } } int main() { unsigned int b[7],e[7]; void *p; __m128i *src; __m128i *dest; posix_memalign(&p, 16, 4096*8192); src = p; posix_memalign(&p, 16, 4096*8192); dest = p; copy1(dest, src); copy2(dest, src); copy4(dest, src); copy16(dest, src); copyN(dest, src,64); b[0] = rdtsc(); copy1(dest, src); copy1(dest, src); copy1(dest, src); copy1(dest, src); e[0] = rdtsc(); b[1] = rdtsc(); copy2(dest, src); copy2(dest, src); copy2(dest, src); copy2(dest, src); e[1] = rdtsc(); b[2] = rdtsc(); copy4(dest, src); copy4(dest, src); copy4(dest, src); copy4(dest, src); e[2] = rdtsc(); b[3] = rdtsc(); copy16(dest, src); copy16(dest, src); copy16(dest, src); copy16(dest, src); e[3] = rdtsc(); b[4] = rdtsc(); copyN(dest, src, 64); copyN(dest, src, 64); copyN(dest, src, 64); copyN(dest, src, 64); e[4] = rdtsc(); b[5] = rdtsc(); copyN(dest, src, 128); copyN(dest, src, 128); copyN(dest, src, 128); copyN(dest, src, 128); e[5] = rdtsc(); b[6] = rdtsc(); copyN(dest, src, 512); copyN(dest, src, 512); copyN(dest, src, 512); copyN(dest, src, 512); e[6] = rdtsc(); printf(" 1:%d\n",e[0]-b[0]); printf(" 2:%d\n",e[1]-b[1]); printf(" 4:%d\n",e[2]-b[2]); printf(" 16:%d\n",e[3]-b[3]); printf(" 64:%d\n",e[4]-b[4]); printf(" 128:%d\n",e[5]-b[5]); printf("1024:%d\n",e[6]-b[6]); return 0; }
これの結果が、
1:95653020 2:96958104 4:99469308 16:126624288 64:232365708 128:297237984 1024:441126636
こんな感じであるが、さて、これ、それぞれの違いはどこから来るでしょう?という問題で、多分、
1:95653020 2:96958104 /* ?? */ 4:99469308 /* ?? */ 16:126624288 /* プリフェッチが効かなくなる */ 64:232365708 /* L1Dの連想度的によくない */ 128:297237984 /* ?? */ 1024:441126636 /* L2の連想度的によくない */
なのかなー、という感じであるが、いまいち確証が持てない。
あと布団から出るのめんどくさくて、メインマシンがノートPCになりつつある昨今であり、Core2でも試すべきだが試していない。
x86のキャッシュは、
- キャッシュライン64byte
- L1D 8way 6〜8ライン
- L2 8way 数千ライン
- プリフェッチ8本
などとパラメータがたくさんあるのに加えて、ソフトウェアでプリフェッチ入れるとその命令自体が重くて遅くなったりするなど、何が最適かよーわからんというのがあって、さて、この問題を解くのは人間がやるべきか、自動でやるべきか?特に結論は無い。