<div dir="ltr">Hi Chris,<div><br></div><div>It looks like it tries to checkpoint application state without checkpointing the application or its libraries (including MPI). I am curious if the checkpoint sizes are similar or significantly larger to the application's typical outputs/checkpoints. If they are much larger, the time to write will be higher and they will stress capacity more.</div><div><br></div><div>We are looking at SCR for Frontier with the idea that users can store checkpoints on the node-local drives with replication to a buddy node. SCR will manage migrating non-defensive checkpoints to Lustre.</div><div><br></div><div>Scott</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Feb 18, 2023 at 3:43 PM Christopher Samuel <<a href="mailto:chris@csamuel.org">chris@csamuel.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">Hi all,<br>
<br>
The list has been very quiet recently, so as I just posted something to <br>
the Slurm list in reply to the topic of checkpointing MPI applications I <br>
thought it might interest a few of you here (apologies if you've already <br>
seen it there).<br>
<br>
If you're looking to try checkpointing MPI applications you may want to <br>
experiment with the MANA ("MPI-Agnostic, Network-Agnostic MPI") plugin <br>
for the DMTCP C/R effort here:<br>
<br>
<a href="https://github.com/mpickpt/mana" rel="noreferrer" target="_blank">https://github.com/mpickpt/mana</a><br>
<br>
We (NERSC) are collaborating with the developers and it is installed on <br>
Cori (our older Cray system) for people to experiment with. The <br>
documentation for it may be useful to others who'd like to try it out - <br>
it's got a nice description of how it works too which even I, as a <br>
non-programmer, can understand.<br>
<br>
<a href="https://docs.nersc.gov/development/checkpoint-restart/mana/" rel="noreferrer" target="_blank">https://docs.nersc.gov/development/checkpoint-restart/mana/</a><br>
<br>
Pay special attention to the caveats in our docs though!<br>
<br>
I've not used it myself, though I'm peripherally involved to give advice <br>
on system related issues.<br>
<br>
I'm curious if there are other methods that people are using out there <br>
for transparent checkpointing of MPI applications?<br>
<br>
All the best,<br>
Chris<br>
-- <br>
Chris Samuel  :  <a href="http://www.csamuel.org/" rel="noreferrer" target="_blank">http://www.csamuel.org/</a>  :  Berkeley, CA, USA<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div>