<div dir="ltr"><br><div>Prentice wrote:</div><div><br></div><div>> When I compare my HPL results to my HPCG results, I'm getting HPCG<br>> results that are 0.3 - 0.5% of HPL. On the HPCG Top500 list, most<br>> systems are getting 2-3% of HPL, so I'm off by an order of magnitude.  <br></div><div><br></div><div>Of course HPCG is a bandwidth limited application so it will never come</div><div>close to HPL.  It is likely that you are seeing the effect of running the stock</div><div>3.1 release and comparing that to optimized releases from Intel and elsewhere</div><div>that are much faster, and faster still if they are most running on the GPU.</div><div><br></div><div>You can get better CPU performance using Intel optimized version distributed</div><div>with the cirompiler, or grabbing NVIDIA's version for the GPU.   I know that a</div><div>fully optimized version of the code runs about 50% faster than the stock 3.1 </div><div>version no matter how you compile it.  You should also look at not running</div><div>fully packed and play with the rank to thread ratio.  The idea is to get as close</div><div>to theoretical bandwidth from the node as possible and this may mean running</div><div>unpacked.</div><div><br></div><div>Cheers!</div><div><br></div><div>rbw</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Aug 5, 2020 at 1:09 PM Prentice Bisbal via Beowulf <<a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Beowulfers,<br>
<br>
Do any of you have any experience using HPCG as a benchmark. I'm trying <br>
to compare the performance of several different processors for an <br>
upcoming purchase. I've already run LINPACK, and now I'd like to run <br>
HPCG. It seems the only tuning parameter is the size of the local grid <br>
in the x,y,z dimensions.<br>
<br>
While the guidelines say to increase the gridsize until the job consumes <br>
1/4 or more of RAM, my testing has shown that as the gridsize goes up, <br>
so does the performance,  and it keeps going up for me until I consume <br>
all the memory and the job gets killed by Slurm for exceeding memory <br>
requirements.<br>
<br>
I've been doing a lot of Google searching for how to tune HPCG for <br>
maximum results, and there are some papers for tuning HPCG for large <br>
supercomputers. In these cases, they use x,y,z dimensions that are not <br>
necessarily equal, but I don't understand how they determined to use <br>
these unique values for x,y,z.<br>
<br>
When I compare my HPL results to my HPCG results, I'm getting HPCG <br>
results that are 0.3 - 0.5% of HPL. On the HPCG Top500 list, most <br>
systems are getting 2-3% of HPL, so I'm off by an order of magnitude.<br>
<br>
-- <br>
Prentice<br>
<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div>