<div dir="ltr">Hi Chris,<div><br></div><div>Having gone through this migration on several small clusters over the years, I can say that initially it seems pretty scary but in the end it was all actually very straightforward.  Obviously all the names of the resources and queues/partitions change and the user command names change but all the concepts stay the same and map directly.  Much like migrating from torque to sge back in the day.</div><div><br></div><div>For specific technical details, I like this wiki, maintained by one person from the slurm mailing list:</div><div><a href="https://wiki.fysik.dtu.dk/niflheim/SLURM">https://wiki.fysik.dtu.dk/niflheim/SLURM</a><br></div><div><br></div><div>Regards,</div><div>Alex</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jan 29, 2021 at 12:13 PM Chris Dagdigian <<a href="mailto:dag@sonsorol.org">dag@sonsorol.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi folks,<br>
<br>
Those who know me from my day job and other email address know that I've <br>
been a hardcore SGE person for a decade+ now.  Feels bad to even write <br>
this email, heh<br>
<br>
Internally at my company we've been having a great internal discussion <br>
about SGE and SLURM, the specific trigger being our widespread use of <br>
AWS Parallelcluster for auto-scaling compute farms on AWS and the <br>
decision by AWS to deprecate the open source SGE distributed with the <br>
stack at some point in the future.<br>
<br>
Related to this is the longstanding use of SGE in the life sciences -- <br>
there are genome sequencers and other wet lab instruments that ship <br>
natively with SGE support from the vendor so there is going to be a long <br>
tail of SGE still in use or targeted for use in biotech and pharma spaces.<br>
<br>
I think there is still a future for commercial SGE especially after the <br>
Univa -> Altair tie up but that still leaves the poor orphaned/forked <br>
open source SGE distro's still kinda hanging out there with no real <br>
updates or improvements in ages so I am understanding of the AWS HPC <br>
folk desire to pare down their supported scheduler stack.<br>
<br>
I want to build up my own knowledge and prep for our own increased use <br>
of SLURM on AWS.  I'm very comfortable with SGE architecture, <br>
operational philosophy and capabilities but I lack similar info for <br>
modern SLURM.   I'm ready and willing to start from scratch to build my <br>
own transition and "differences between SGE/SLURM" documentation but was <br>
wondering who out there has made this transition before and if there are <br>
any public domain FAQs, wikis, technical writeups or other guidance that <br>
I can learn from.<br>
<br>
If I can manage to put my own materials together and they look sensible <br>
I will plan on publishing them openly. Thanks!<br>
<br>
So far the internal conversation we are having is centering on the <br>
differences in resource based job scheduling when there are specific <br>
needs to declare required resources up front like GPUs or memory <br>
requirements.  Most of the differences beyond basic queue/partition <br>
design seem to center around the minutiae of scheduling and placing jobs <br>
but I'm sure I'm missing other larger areas.<br>
<br>
<br>
Regards<br>
Chris<br>
<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div>