<div dir="ltr"><br><div>Kilian/All,</div><div><br></div><div>Thanks for the responses.  Regarding "peak" ... if I did not include it,</div><div>I should have said "nominal" peak, which is about the only meaning </div><div>peak has these days.   </div><div><br></div><div>Seeing as I have not had a lot of quick "this is how you get 90% efficiency"</div><div>answers, but references and comments that corroborate the performance</div><div>I am observing, I will conclude for the moment that the 80% figure for these</div><div>64-core parts is a good-reasonable number.  </div><div><br></div><div>Also, it is a reminder that even HPL has an on-node bandwidth performance dependency,</div><div>although I guess we cannot be sure here what part of the 20% difference when compared</div><div>to the 32-core parts is strictly due to bandwidth to memory and not to increased competition</div><div>for the on-chip caches when we double the number of cores.</div><div><br></div><div>Thanks,</div><div><br></div><div>Richard</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Aug 18, 2020 at 6:22 PM Kilian Cavalotti <<a href="mailto:kilian.cavalotti.work@gmail.com">kilian.cavalotti.work@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Richard,<br>
<br>
On Fri, Aug 14, 2020 at 2:30 PM Richard Walsh <<a href="mailto:rbwcnslt@gmail.com" target="_blank">rbwcnslt@gmail.com</a>> wrote:<br>
> What have people achieved on this SKU on a single-node using the stock<br>
> HPL 2.3 source... ??<br>
<br>
I got similar findings as yours, about 75-80% of peak, albeit using a<br>
different SKU (7702), but consistent over multiple platforms (thus<br>
hopefully averaging manufacturer idiosyncrasies).<br>
<br>
I think this page summarizes the most relevant BIOS settings pretty<br>
well: <a href="https://hpcadvisorycouncil.atlassian.net/wiki/spaces/HPCWORKS/pages/1280442391/AMD+2nd+Gen+EPYC+CPU+Tuning+Guide+for+InfiniBand+HPC#Configurable-Thermal-Design-Power-(cTDP)" rel="noreferrer" target="_blank">https://hpcadvisorycouncil.atlassian.net/wiki/spaces/HPCWORKS/pages/1280442391/AMD+2nd+Gen+EPYC+CPU+Tuning+Guide+for+InfiniBand+HPC#Configurable-Thermal-Design-Power-(cTDP)</a><br>
<br>
> I have seen a variety of performance claims even as high as 90% of its nominal per node peak of 4.608 TFLOPs.<br>
<br>
Interestingly, the theoretical performance of a dual-7742 machine is<br>
4.608 TFLOPs, at *base* clock (2.25 GHz).<br>
In practice, you probably had Turbo on, meaning that the clocks were<br>
probably running closer to the 3.0 GHz range, which means that the<br>
theoretical performance should be in the 6 TF range, hence bringing<br>
the observed efficiency even lower.<br>
<br>
An interesting test would be to disable Turbo to fix the core clocks<br>
at 2.25 GHz, and see the HPL numbers you get.<br>
<br>
Cheers,<br>
--<br>
Kilian<br>
</blockquote></div>