<div dir="ltr"><div dir="ltr">I do not have any specific HPL hints.<div><br></div><div>I would suggest setting the BIOS to NUMAs-Per-Socket to 4 (NSP-4). I would try running 16 processes, one per CCX - two per CCD, with an OpenMP depth of 4.</div><div><br></div><div>Dell's HPC blog has a few articles on tuning Rome:</div><div><br></div><div><a href="https://www.dell.com/support/article/en-us/sln319015/amd-rome-is-it-for-real-architecture-and-initial-hpc-performance">https://www.dell.com/support/article/en-us/sln319015/amd-rome-is-it-for-real-architecture-and-initial-hpc-performance</a><br></div><div><br></div><div>Scott</div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Aug 14, 2020 at 5:30 PM Richard Walsh <<a href="mailto:rbwcnslt@gmail.com">rbwcnslt@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex"><div dir="ltr"><br><div>All,</div><div><br></div><div>What have people achieved on this SKU on a single-node using the stock </div><div>HPL 2.3 source... ??  </div><div><br></div><div>I have seen a variety of performance claims even as high as 90% of its nominal </div><div>per node peak of 4.608 TFLOPs.  I can now get above 80% of peak, but not higher.  </div><div>I have heard that to get higher values special BIOS settings are required, including</div><div>the turning off SMT which allows the chip to turbo higher.  Remember this is not the </div><div>7542 processor with 32 cores per chip and the same bandwidth per socket as the</div><div>7742 which can turbo to over 100% of nominal peak for HPL.</div><div><br></div><div>If people have gotten higher single node numbers ... what is your recipe ... ??</div><div><br></div><div>I am particularly interested in BIOS settings, and maybe surprise settings</div><div>in the HPL.dat file.  Do higher performing runs require using close to the </div><div>maximum memory on the node ... ??  As this is single-node, I would not</div><div>expect choice of MPI to make a difference</div><div><br></div><div>To get to 80% with SMT on in the BIOS, I am building with an older Intel</div><div>compiler and MKL that still recognizes the MKL_DEBUG_CPU_TYPE=5.</div><div>Running so that the number of MPI ranks run on the node matches the</div><div>number of CCXs seems ot give the best numbers.</div><div><br></div><div>Following the tuning instructions from AMD for using BLIS and GCC for</div><div>the build does not get me there.</div><div><br></div><div>Thanks,</div><div><br></div><div>Richard Walsh</div><div><br></div></div>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div>